近日,山东大学计算机科学与技术学院通用智能实验室师生撰写的论文被SIGIR 2025录用。第48届国际信息检索大会(The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval)将于2025年7月13日-2025年7月17日在意大利帕多瓦举行。SIGIR是信息检索领域的旗舰会议,也是中国计算机学会CCF推荐的A类会议。
录用的文章如下:
标题:Replication and Exploration of Generative Retrieval over Dynamic Corpora
作者:Zhen Zhang, Xinyu Ma, Weiwei Sun, Pengjie Ren, Zhumin Chen, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren
内容简介:
生成式检索(Generative Retrieval, GR)作为信息检索领域的一种新兴范式备受关注。然而,现有的生成式检索模型大多基于静态文档集合进行开发和评估,在动态语料库环境下的性能表现却鲜有研究。动态语料库是指文档集合持续演化更新的场景,这在现实世界的搜索引擎中十分常见。
本文首次对各种代表性的生成式检索方法在动态语料库上进行了系统性的复现和评估。通过大量实验,研究发现采用基于文本的文档标识符(docid)的生成式检索模型在面对未见文档时展现出更优的泛化能力。文档标识符设计得越细粒度,模型在动态语料库上的性能就越好,甚至能够超越BM25基线方法,与密集检索方法相媲美。相比之下,采用基于数字的文档标识符的模型虽然效率较高,但在动态语料库上性能显著下降。
进一步分析发现,基于数字的文档标识符性能不佳的原因之一是其对初始文档集合过度偏向,这可能源于在训练集上的过拟合现象。研究还深入分析了表现最佳的生成式检索方法,识别出基于文本的文档标识符在动态语料库中的三个关键优势:(1)与语言模型预训练知识的语义对齐;(2)细粒度的文档标识符设计;(3)高词汇多样性。
基于这些发现,本文提出了一种新颖的多文档标识符设计方案,该方案兼具基于数字标识符的效率和基于文本标识符的有效性,在无需额外重训练的情况下实现了动态语料库上的性能提升。这项工作为推进动态语料库上的生成式检索方法提供了实证依据,为开发更具泛化能力且高效的生成式检索模型铺平了道路。