担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题

简介: 谷歌的研究人员发表的新论文提出了一种能够准确地回答用户提问的系统,其无需像传统搜索引擎一样展示所有的结果。

GPT-3在AI Dungeon游戏中富有争议的表现一度让它被推到了大众讨论的风口浪尖,不过我们现在来讨论一下它的另一种应用:问题解答和搜索引擎。


近日,一篇题为《重新思考搜索:从菜鸟到大师》的论文称,直接向用户展示搜索到结果是一种「认知负担」,而该论文则通过提高自然语言处理系统(NLP)的能力,从而可以给用户提供更优质的结果。


高达1,750亿个参数!史上最大模型:GPT-3


GPT-3是迄今为止最大的预训练模型,具有1,750亿个参数,使其能够针对各种语言任务给出结果。

 

与大多数设计为执行单个特定任务的AI系统不同,GPT-3设计具有通用性,「文本输入-输出」界面可以执行任意数量的操作,并给出具体的提示建议。

 

GPT-3更像是在和一个专家交流,以对话的形式来对用户的问题进行解答,极大地减少用户的工作量。终于可以告别「在搜索引擎上找不到想要的结果是怎样的一种体验?」了。


50.jpg


话不多说,我们这就来尝试一个问题:「最适合七口之家的车是什么?」51.png


这个答案非常令人满意。沃尔沃XC90确实是适合七口之家的汽车,并且其强大的安全功能也广受喜爱。

 

我们再来看看谷歌搜索给出的答案:


52.jpg


的确回答了我们的问题,不过如此之多的选择会大大增加了用户的决策成本。用乔布斯的话说就是「选择会降低意志力」。


表现比GPT-3更权威


回到论文上来,该论文提出了对多域预言响应类型的改进,其中,这些响应可以从深度学习自回归语言模型(例如GPT-3)中获得。

53.jpg

主要改进:a)准确地对来源进行引用;b)防止模型发明不存在的源材料。


这其中的语言模型将在各种领域(包括图像和文本)上进行训练, 除此之外,它还会学习知识的来源,这是GPT-3所不具备的。

 

「要用一个统一的模型替换搜索索引,模型本身必须有可能像传统索引一样维度的知识。实现此目的方法是使用语料库模型,对术语-术语,术语-文档和文档-文档之间的关系进行联合建模。」



54.jpg

上图是对用户搜索的三种回答:


左:Google的算法给出的搜索结果,答案具有一定的先后顺序


中:GPT-3风格的答案,清晰明了,但是不能证明引用来源的合理性。


右:论文提出的系统,其将搜索结果中的「最佳答案」直接整合到回答中,并用注脚的形式指出答案的来源。


强人工智能已经可以实现了?


研究人员指出,这个系统还不能被称为强人工智能(AGI),因为其同样面临着在自然语言处理的背景下,给出具有普适性的专业回答的挑战。

 

文章对这种专业的「高质量」答案提出了五项要求:

 

  1. 权威

 答案应该通过从权威性很高的来源中产生。这就是为什么在术语序列和文档元数据之间建立更明确的联系如此重要的另一个原因。如果语料库中的所有文档都标注有权威性分数,则在训练模型和生成答案时都应该考虑该分数。 

  1. 透明度

 只要有可能,就应该向用户提供答案的来源。并且应该思考,这个回答的首选信息来源是什么? 

  1. 处理偏见

 预先训练的语言模型的设计目的不是评估经验的真实性,而是对数据中的主要趋势进行概括和优先排序。这为攻击提供了可能的模式,那么就需要使用辅助系统来防止系统做出这种偏见性的回答。 

  1. 多样性的观点

 答案应该具有各种不同的观点,且不应两极分化。例如,对于有争议的问题,应以公平的方式涵盖争议双方。这也与模型对偏见性信息的处理紧密联系。 

  1. 无障碍语言

 除了为使用不同于答案来源的语言的用户提供准确的翻译之外,其答案应「尽可能用原义写成」。


看来实现强人工智能的路还有很长一段要走。


相关文章
|
20天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
23 1
|
1天前
|
机器学习/深度学习 数据采集 自然语言处理
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
8 1
|
26天前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
37 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
万字Gemini技术报告来啦 | Gemini这么强,GPT-4输的有点多,多模态超过人类专家
万字Gemini技术报告来啦 | Gemini这么强,GPT-4输的有点多,多模态超过人类专家
92 0
|
9月前
|
自然语言处理 运维 机器人
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
5月前
|
Web App开发 人工智能 安全
谷歌炸场:全新大语言模型 Gemini 1.0 正式亮相,近乎全面领先于 OpenAI GPT-4
根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了“最先进的性能”,甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。
|
11月前
|
机器学习/深度学习 人工智能 测试技术
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
|
12月前
|
机器学习/深度学习 编解码 缓存
全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快
全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快
313 0
|
12月前
|
自然语言处理
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
212 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
191 0