Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

简介: Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用


斯坦福大学 Percy Liang 等人的一项测试表明,新必应等生成式搜索引擎很多时候都没有那么靠谱:在它们生成的句子中,仅有 51.5% 的句子有引文支持,仅 74.5% 的引文支持相关句子。

生成式搜索引擎通过直接生成对输入查询的回应以及在线引用来满足用户的信息需求(如下图 1)。现有的生成式搜索引擎正在迅速获得用户,微软报告说 "大约三分之一的每日预览用户每天都在使用 Bing 聊天",Bing 聊天在其公开预览的第一个月提供了 4500 万次聊天。



生成式搜索引擎有可能改变人们在网上寻找信息的方式,但目前基于大语言模型的生成式搜索引擎生成的回复可能并不是准确的。但是鉴于它们的潜力和快速广泛的应用,评估这些系统并更好地了解其潜在的局限性是至关重要的。


生成式搜索引擎一个值得信赖的先决条件是其可验证性,每个生成的关于外部世界的描述都应该得到一组相关联引用的充分支持,而且每个引文都应该支持根据其生成的相关描述。可验证性使读者能够轻松地检查任何生成的描述是否得到其引用来源的支持。


研究者通过人工评估来审核四个流行的商业生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),让它们完成一组信息查找任务(例如,来自 NaturalQuestions 的各种类型的历史谷歌用户查询,来自 Reddit 的动态收集的开放式问题;例子见表 1)。



对于每个查询 - 回答对,研究者以人工评价来衡量下面几种维度:

1. 流畅性(生成的文本是否流畅和连贯);

2. 感知效用(生成的回应是否对查询有帮助,信息量是否充足);

3. 引文召回率(生成的关于外部世界的陈述中,完全由其引文支持的比例);

4. 引文精确度(生成的支持其相关陈述的引文比例)。


一个值得信赖的生成式搜索引擎应该达到较高的引文召回率和精确度,表明其生成的引文是全面的(每个生成的描述都有引文的充分支持)和正确的(每个引文都支持其相关描述)。


研究人员发现,现有的生成式搜索引擎响应通常具有很高的流畅性以及明显的感知效用,但经常回复无支持的陈述或包含不准确的引用(低引用召回率和精确度)。平均来说,在生成句子中仅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相关句子(引文精确率)。


此外,引文召回率和精确度与流畅性和感知效用成反比 —— 看起来更有帮助的回应往往是那些没有支持的描述或包含不准确的引文的回应。这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。在图 1 的例子中,一个对詹姆斯 - 韦伯太空望远镜没有什么背景知识的用户很可能很难识别生成的回复中并没有支持它的描述。


研究者假设这种逆向关联的发生是因为一些生成式搜索引擎经常复制或改写它们引用的网页。虽然这样的系统取得了较高的引用召回率和精确度,但是一些复制的语句可能与用户的问题或生成的回复的其余部分无关,导致回复的流畅性和感知效用指标下降。


对流畅性、感知效用和可验证性的人工评价

衡量流畅性和感知效用


为了测量响应的流畅性,研究人员向标注人员展示了用户查询、生成的回应并声称 "这些回应是流畅的、连贯的"。他们还要求标注人员在从 "非常不同意" 到 "非常同意" 的五点李克特量表上评定他们对该回应的认可程度。使用类似的过程来衡量感知效用,要求测试者评估他们对 “响应是对查询的有用且信息丰富的回答” 这一说法的同意程度。

计算引文召回率

引文召回率是指完全被相关引文所支持的、值得验证的陈述的比例(见下图 2 的例子)。因此,计算引文召回率需要:


(1)确定回复中值得验证的陈述;

(2)评估每个值得验证的陈述是否有其相关引文的充分支持。



计算引用精确率

引用精确率是指在生成的所有引文中支持其相关陈述的比例(见图 2 中的例子)。与召回率不同,引文精确率的概念在于奖励系统准确引用的能力。如果一个生成的陈述引用了互联网上的每个网页,那么引文召回率可能会很高,但是引文精确率会很低(因为很多文章是不相关的,不支持其相关的陈述)。为了衡量回应 r 的引用精确率,研究者们给标注人员判断每个引用 c_i,k 是否支持其相关陈述 s_i 提供了以下三个标准(例子见图 1 中引用的网页):


  • 完全支持:陈述中的所有信息都得到了引文的支持。
  • 部分支持:陈述中的一些信息得到了引文的支持,但其他部分没有得到支持(例如,缺失或矛盾)。
  • 没有支持:引文不支持陈述的任何部分(例如,引用的网页完全不相关或矛盾)。


结果和分析


流畅性和感知效用


几个生成式搜索引擎生成的回复看起来是流畅的并且很有帮助。下表 3 显示了这些搜索引擎对每个查询分布的回复的流畅性。



表 4 展示了它们的感知效用。

 


引文召回率和精确度


表 5 是生成性搜索引擎在所评估的查询分布中的引文召回率的相关数据。



下表 6 是搜索引擎在所评估的查询分布中关于引文精确率的实验数据。



现有的生成式搜索引擎往往不能很正确地对引文进行引用。当对所有系统进行平均计算时,只有 51.5% 的生成语句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相关语句(精确度)。虽然生成的回答往往显得信息量大且有用,但研究人员认为这些结果对于已经拥有数百万用户并正在迅速成为回答用户查询的主要工具的系统来说是不能接受的。


比较不同生成式搜索引擎之间的引文召回率和精确度,它们的引文召回率和精确率有很大的不同。平均而言,perplexity.ai 实现了最高的平均召回率(68.7),而其他三者的成绩分别是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。

从精确率来比较,Bing Chat 实现了最高的精确率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。


可以得出,召回率最高和最低的系统之间有近 58% 的差距(perplexity.ai vs. YouChat),而精确率最高和最低的系统之间的差距近 25%(Bing Chat vs. YouChat)。


比较搜索引擎之间的不同查询分布的引文召回率。修改评价查询分布似乎比改变引用精确率更能影响引用召回率。例如,有长答案的 NaturalQuestions 查询与非 NaturalQuestions 查询之间的引用召回率差距接近 11%(分别为 58.5 与 47.8)。同样,有短答案的 NaturalQuestions 查询和无短答案的 NaturalQuestions 查询之间的引用召回率差距接近 10%(有短答案的查询为 63.4,只有长答案的查询为 53.6,没有长或短答案的查询为 53.4)。


研究者假设引文召回率是由检索到的网页的相关性驱动的。在没有检索到直接回答用户查询的证据的情况下,系统会产生没有引文证明的陈述,从而导致较低的召回率。例如,当对开放式的 AllSouls 论文问题进行评估时,生成式搜索引擎的引文召回率很低(平均召回率为 44.3),因为这些查询通常在互联网上没有可提取的答案。


比较不同查询分布的引文精确率,有长答案的 NaturalQuestions 查询的精确率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察单个查询分布的结果时,当对带有段落答案类型的 NaturalQuestions 查询进行评估时,生成式搜索引擎的精确率最高(当存在短答案时,精确率为 81.5,当只存在长答案时,精确度为 78.7)。另一方面,当对 AllSouls 开放式论文问题(67.8)和 davinci-debate 查询(70.3)进行系统评估时,引文精确率是最低的。在 NaturalQuestions 子分布之间进行比较,有短答案的查询的平均系统精确率(77.4)高于只有长答案(74.8)或没有长答案(73.5)的查询。


为了总结人工评估结果,表 7 列出了被评估系统的平均引文 F_1。图 3 显示了平均感知效用与平均引用 F_1 的对比。


现有的搜索引擎系统在引文召回率、引文精确率和感知效用之间都做了不同的权衡。




引文召回率和精率与精确率流畅性和感知效用成反比


研究者通过实验发现,在现有的生成式搜索引擎中,引文召回率和精确率与流畅性和感知效用成反比。计算引文召回率和精确率与流畅性和感知效用之间的皮尔逊相关系数,发现两者呈强负相关,特别是精确率显示出更强的趋势(表 8)。


例如,Bing Chat 达到了最高的精确度,但其流畅度和感知效用却最低。相比之下,YouChat 的召回率和精确度最低,但它的回答得到了最高的流畅性和感知效用评价。



生成式搜索引擎经常复制或轻微改写被引用网页的内容


下表 9 列出了生成的陈述和从支持的网页中提取的证据之间的相似度指标,当搜索引擎做出的陈述完全或部分得到其引文的支持时,它们往往直接从其引用的文章中复制或改写转述。


相关文章
|
21天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
3月前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
112 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
|
6月前
|
人工智能 搜索推荐
强大的AI搜索引擎——秘塔AI搜索
【2月更文挑战第17天】强大的AI搜索引擎——秘塔AI搜索
3713 2
强大的AI搜索引擎——秘塔AI搜索
|
数据采集 存储 搜索推荐
如何更好地使用谷歌搜索引擎?
答案是:要想更好的使用谷歌搜索引擎,就需要做足够多的GPB外链+足够多的优质内容。 了解基本的搜索技巧 使用引号进行精确搜索 当你在谷歌中使用“引号”包裹的词或句子,你会得到精确匹配的结果。 这是非常有用的,尤其当你要找特定的信息或短语时。
150 0
如何更好地使用谷歌搜索引擎?
|
6月前
|
自然语言处理 搜索推荐 算法
ChatGPT可以取代搜索引擎吗?
ChatGPT可以取代搜索引擎吗?
78 0
|
人工智能 自然语言处理 数据可视化
Google SGE 正在添加人工智能图像生成器,现已推出:从搜索中的生成式 AI 中获取灵感的新方法
Google SGE 正在添加人工智能图像生成器,现已推出:从搜索中的生成式 AI 中获取灵感的新方法
261 1
|
数据采集 搜索推荐 安全
如何利用谷歌趋势去获取关键词?
答案是:可通过semrush或Google Search Console工具获取关键词来发外链。 在优化外贸网站以提升Google搜索引擎排名时,了解当前流行的关键词是关键的一环。 谷歌趋势是一个强大的工具,可用于检测某一关键词的搜索趋势。 下面我们将探讨如何使用谷歌趋势来获取关键词。
155 0
如何利用谷歌趋势去获取关键词?
|
人工智能 搜索推荐 机器人
神奇智能搜索引擎:perplexity智能搜索引擎(ChatGPT与Edge合体——联网版chatGPT)
神奇智能搜索引擎:perplexity智能搜索引擎(ChatGPT与Edge合体——联网版chatGPT)
|
人工智能 自然语言处理 监控
《花雕学AI》28:革命性的 ChatGPT for SEO——让您的排名飙升 50%!
如果您想写篇有吸引力的文章,或者您是一个博客和网站的拥有者,那么您一定知道 SEO(搜索引擎优化)的重要性。SEO 可以帮助您提高相应的流量、转化率和收入,但是 SEO 也是一个复杂和耗时的过程,需要不断地更新和优化内容、关键词和链接等。 有没有一种方法,可以让 SEO 变得更简单、更快速、更有效呢?答案是有的,那就是 ChatGPT for SEO! ChatGPT for SEO 是一种基于人工智能的强大概念性工具,它可以利用最先进的自然语言生成技术,为您自动创建出高质量、高相关性、高原创性的内容,从而提升您的 SEO 排名。
206 0
|
机器学习/深度学习 人工智能 搜索推荐
Everypixel: AI图片搜索引擎
Everypixel: AI图片搜索引擎
584 0