斯坦福大学 Percy Liang 等人的一项测试表明,新必应等生成式搜索引擎很多时候都没有那么靠谱:在它们生成的句子中,仅有 51.5% 的句子有引文支持,仅 74.5% 的引文支持相关句子。
生成式搜索引擎通过直接生成对输入查询的回应以及在线引用来满足用户的信息需求(如下图 1)。现有的生成式搜索引擎正在迅速获得用户,微软报告说 "大约三分之一的每日预览用户每天都在使用 Bing 聊天",Bing 聊天在其公开预览的第一个月提供了 4500 万次聊天。
生成式搜索引擎有可能改变人们在网上寻找信息的方式,但目前基于大语言模型的生成式搜索引擎生成的回复可能并不是准确的。但是鉴于它们的潜力和快速广泛的应用,评估这些系统并更好地了解其潜在的局限性是至关重要的。
生成式搜索引擎一个值得信赖的先决条件是其可验证性,每个生成的关于外部世界的描述都应该得到一组相关联引用的充分支持,而且每个引文都应该支持根据其生成的相关描述。可验证性使读者能够轻松地检查任何生成的描述是否得到其引用来源的支持。
研究者通过人工评估来审核四个流行的商业生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),让它们完成一组信息查找任务(例如,来自 NaturalQuestions 的各种类型的历史谷歌用户查询,来自 Reddit 的动态收集的开放式问题;例子见表 1)。
对于每个查询 - 回答对,研究者以人工评价来衡量下面几种维度:
1. 流畅性(生成的文本是否流畅和连贯);
2. 感知效用(生成的回应是否对查询有帮助,信息量是否充足);
3. 引文召回率(生成的关于外部世界的陈述中,完全由其引文支持的比例);
4. 引文精确度(生成的支持其相关陈述的引文比例)。
一个值得信赖的生成式搜索引擎应该达到较高的引文召回率和精确度,表明其生成的引文是全面的(每个生成的描述都有引文的充分支持)和正确的(每个引文都支持其相关描述)。
研究人员发现,现有的生成式搜索引擎响应通常具有很高的流畅性以及明显的感知效用,但经常回复无支持的陈述或包含不准确的引用(低引用召回率和精确度)。平均来说,在生成句子中仅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相关句子(引文精确率)。
此外,引文召回率和精确度与流畅性和感知效用成反比 —— 看起来更有帮助的回应往往是那些没有支持的描述或包含不准确的引文的回应。这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。在图 1 的例子中,一个对詹姆斯 - 韦伯太空望远镜没有什么背景知识的用户很可能很难识别生成的回复中并没有支持它的描述。
研究者假设这种逆向关联的发生是因为一些生成式搜索引擎经常复制或改写它们引用的网页。虽然这样的系统取得了较高的引用召回率和精确度,但是一些复制的语句可能与用户的问题或生成的回复的其余部分无关,导致回复的流畅性和感知效用指标下降。
对流畅性、感知效用和可验证性的人工评价
衡量流畅性和感知效用
为了测量响应的流畅性,研究人员向标注人员展示了用户查询、生成的回应并声称 "这些回应是流畅的、连贯的"。他们还要求标注人员在从 "非常不同意" 到 "非常同意" 的五点李克特量表上评定他们对该回应的认可程度。使用类似的过程来衡量感知效用,要求测试者评估他们对 “响应是对查询的有用且信息丰富的回答” 这一说法的同意程度。
计算引文召回率
引文召回率是指完全被相关引文所支持的、值得验证的陈述的比例(见下图 2 的例子)。因此,计算引文召回率需要:
(1)确定回复中值得验证的陈述;
(2)评估每个值得验证的陈述是否有其相关引文的充分支持。
计算引用精确率
引用精确率是指在生成的所有引文中支持其相关陈述的比例(见图 2 中的例子)。与召回率不同,引文精确率的概念在于奖励系统准确引用的能力。如果一个生成的陈述引用了互联网上的每个网页,那么引文召回率可能会很高,但是引文精确率会很低(因为很多文章是不相关的,不支持其相关的陈述)。为了衡量回应 r 的引用精确率,研究者们给标注人员判断每个引用 c_i,k 是否支持其相关陈述 s_i 提供了以下三个标准(例子见图 1 中引用的网页):
- 完全支持:陈述中的所有信息都得到了引文的支持。
- 部分支持:陈述中的一些信息得到了引文的支持,但其他部分没有得到支持(例如,缺失或矛盾)。
- 没有支持:引文不支持陈述的任何部分(例如,引用的网页完全不相关或矛盾)。
结果和分析
流畅性和感知效用
几个生成式搜索引擎生成的回复看起来是流畅的并且很有帮助。下表 3 显示了这些搜索引擎对每个查询分布的回复的流畅性。
表 4 展示了它们的感知效用。
引文召回率和精确度
表 5 是生成性搜索引擎在所评估的查询分布中的引文召回率的相关数据。
下表 6 是搜索引擎在所评估的查询分布中关于引文精确率的实验数据。
现有的生成式搜索引擎往往不能很正确地对引文进行引用。当对所有系统进行平均计算时,只有 51.5% 的生成语句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相关语句(精确度)。虽然生成的回答往往显得信息量大且有用,但研究人员认为这些结果对于已经拥有数百万用户并正在迅速成为回答用户查询的主要工具的系统来说是不能接受的。
比较不同生成式搜索引擎之间的引文召回率和精确度,它们的引文召回率和精确率有很大的不同。平均而言,perplexity.ai 实现了最高的平均召回率(68.7),而其他三者的成绩分别是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。
从精确率来比较,Bing Chat 实现了最高的精确率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。
可以得出,召回率最高和最低的系统之间有近 58% 的差距(perplexity.ai vs. YouChat),而精确率最高和最低的系统之间的差距近 25%(Bing Chat vs. YouChat)。
比较搜索引擎之间的不同查询分布的引文召回率。修改评价查询分布似乎比改变引用精确率更能影响引用召回率。例如,有长答案的 NaturalQuestions 查询与非 NaturalQuestions 查询之间的引用召回率差距接近 11%(分别为 58.5 与 47.8)。同样,有短答案的 NaturalQuestions 查询和无短答案的 NaturalQuestions 查询之间的引用召回率差距接近 10%(有短答案的查询为 63.4,只有长答案的查询为 53.6,没有长或短答案的查询为 53.4)。
研究者假设引文召回率是由检索到的网页的相关性驱动的。在没有检索到直接回答用户查询的证据的情况下,系统会产生没有引文证明的陈述,从而导致较低的召回率。例如,当对开放式的 AllSouls 论文问题进行评估时,生成式搜索引擎的引文召回率很低(平均召回率为 44.3),因为这些查询通常在互联网上没有可提取的答案。
比较不同查询分布的引文精确率,有长答案的 NaturalQuestions 查询的精确率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察单个查询分布的结果时,当对带有段落答案类型的 NaturalQuestions 查询进行评估时,生成式搜索引擎的精确率最高(当存在短答案时,精确率为 81.5,当只存在长答案时,精确度为 78.7)。另一方面,当对 AllSouls 开放式论文问题(67.8)和 davinci-debate 查询(70.3)进行系统评估时,引文精确率是最低的。在 NaturalQuestions 子分布之间进行比较,有短答案的查询的平均系统精确率(77.4)高于只有长答案(74.8)或没有长答案(73.5)的查询。
为了总结人工评估结果,表 7 列出了被评估系统的平均引文 F_1。图 3 显示了平均感知效用与平均引用 F_1 的对比。
现有的搜索引擎系统在引文召回率、引文精确率和感知效用之间都做了不同的权衡。
引文召回率和精率与精确率流畅性和感知效用成反比
研究者通过实验发现,在现有的生成式搜索引擎中,引文召回率和精确率与流畅性和感知效用成反比。计算引文召回率和精确率与流畅性和感知效用之间的皮尔逊相关系数,发现两者呈强负相关,特别是精确率显示出更强的趋势(表 8)。
例如,Bing Chat 达到了最高的精确度,但其流畅度和感知效用却最低。相比之下,YouChat 的召回率和精确度最低,但它的回答得到了最高的流畅性和感知效用评价。
生成式搜索引擎经常复制或轻微改写被引用网页的内容
下表 9 列出了生成的陈述和从支持的网页中提取的证据之间的相似度指标,当搜索引擎做出的陈述完全或部分得到其引文的支持时,它们往往直接从其引用的文章中复制或改写转述。