当前位置:
X-MOL 学术
›
arXiv.cs.IR
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Enhanced Facet Generation with LLM Editing
arXiv - CS - Information Retrieval Pub Date : 2024-03-25 , DOI: arxiv-2403.16345 Joosung Lee, Jinhong Kim
arXiv - CS - Information Retrieval Pub Date : 2024-03-25 , DOI: arxiv-2403.16345 Joosung Lee, Jinhong Kim
In information retrieval, facet identification of a user query is an
important task. If a search service can recognize the facets of a user's query,
it has the potential to offer users a much broader range of search results.
Previous studies can enhance facet prediction by leveraging retrieved documents
and related queries obtained through a search engine. However, there are
challenges in extending it to other applications when a search engine operates
as part of the model. First, search engines are constantly updated. Therefore,
additional information may change during training and test, which may reduce
performance. The second challenge is that public search engines cannot search
for internal documents. Therefore, a separate search system needs to be built
to incorporate documents from private domains within the company. We propose
two strategies that focus on a framework that can predict facets by taking only
queries as input without a search engine. The first strategy is multi-task
learning to predict SERP. By leveraging SERP as a target instead of a source,
the proposed model deeply understands queries without relying on external
modules. The second strategy is to enhance the facets by combining Large
Language Model (LLM) and the small model. Overall performance improves when
small model and LLM are combined rather than facet generation individually.
中文翻译:
通过 LLM 编辑增强构面生成
在信息检索中,用户查询的方面识别是一项重要任务。如果搜索服务可以识别用户查询的各个方面,它就有可能为用户提供更广泛的搜索结果。先前的研究可以通过利用检索到的文档和通过搜索引擎获得的相关查询来增强方面预测。然而,当搜索引擎作为模型的一部分运行时,将其扩展到其他应用程序会遇到挑战。首先,搜索引擎不断更新。因此,附加信息可能会在训练和测试期间发生变化,这可能会降低性能。第二个挑战是公共搜索引擎无法搜索内部文档。因此,需要建立一个单独的搜索系统来合并来自公司内部私人领域的文档。我们提出了两种策略,重点关注一个框架,该框架可以通过仅将查询作为输入而不使用搜索引擎来预测方面。第一个策略是通过多任务学习来预测 SERP。通过利用 SERP 作为目标而不是源,所提出的模型无需依赖外部模块即可深入理解查询。第二个策略是通过结合大型语言模型(LLM)和小型模型来增强方面。当小模型和 LLM 相结合而不是单独生成构面时,整体性能会得到提高。
更新日期:2024-03-27
中文翻译:
通过 LLM 编辑增强构面生成
在信息检索中,用户查询的方面识别是一项重要任务。如果搜索服务可以识别用户查询的各个方面,它就有可能为用户提供更广泛的搜索结果。先前的研究可以通过利用检索到的文档和通过搜索引擎获得的相关查询来增强方面预测。然而,当搜索引擎作为模型的一部分运行时,将其扩展到其他应用程序会遇到挑战。首先,搜索引擎不断更新。因此,附加信息可能会在训练和测试期间发生变化,这可能会降低性能。第二个挑战是公共搜索引擎无法搜索内部文档。因此,需要建立一个单独的搜索系统来合并来自公司内部私人领域的文档。我们提出了两种策略,重点关注一个框架,该框架可以通过仅将查询作为输入而不使用搜索引擎来预测方面。第一个策略是通过多任务学习来预测 SERP。通过利用 SERP 作为目标而不是源,所提出的模型无需依赖外部模块即可深入理解查询。第二个策略是通过结合大型语言模型(LLM)和小型模型来增强方面。当小模型和 LLM 相结合而不是单独生成构面时,整体性能会得到提高。