担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题

简介: 谷歌的研究人员发表的新论文提出了一种能够准确地回答用户提问的系统,其无需像传统搜索引擎一样展示所有的结果。

GPT-3在AI Dungeon游戏中富有争议的表现一度让它被推到了大众讨论的风口浪尖,不过我们现在来讨论一下它的另一种应用:问题解答和搜索引擎。


近日,一篇题为《重新思考搜索:从菜鸟到大师》的论文称,直接向用户展示搜索到结果是一种「认知负担」,而该论文则通过提高自然语言处理系统(NLP)的能力,从而可以给用户提供更优质的结果。


高达1,750亿个参数!史上最大模型:GPT-3


GPT-3是迄今为止最大的预训练模型,具有1,750亿个参数,使其能够针对各种语言任务给出结果。

 

与大多数设计为执行单个特定任务的AI系统不同,GPT-3设计具有通用性,「文本输入-输出」界面可以执行任意数量的操作,并给出具体的提示建议。

 

GPT-3更像是在和一个专家交流,以对话的形式来对用户的问题进行解答,极大地减少用户的工作量。终于可以告别「在搜索引擎上找不到想要的结果是怎样的一种体验?」了。


50.jpg


话不多说,我们这就来尝试一个问题:「最适合七口之家的车是什么?」51.png


这个答案非常令人满意。沃尔沃XC90确实是适合七口之家的汽车,并且其强大的安全功能也广受喜爱。

 

我们再来看看谷歌搜索给出的答案:


52.jpg


的确回答了我们的问题,不过如此之多的选择会大大增加了用户的决策成本。用乔布斯的话说就是「选择会降低意志力」。


表现比GPT-3更权威


回到论文上来,该论文提出了对多域预言响应类型的改进,其中,这些响应可以从深度学习自回归语言模型(例如GPT-3)中获得。

53.jpg

主要改进:a)准确地对来源进行引用;b)防止模型发明不存在的源材料。


这其中的语言模型将在各种领域(包括图像和文本)上进行训练, 除此之外,它还会学习知识的来源,这是GPT-3所不具备的。

 

「要用一个统一的模型替换搜索索引,模型本身必须有可能像传统索引一样维度的知识。实现此目的方法是使用语料库模型,对术语-术语,术语-文档和文档-文档之间的关系进行联合建模。」



54.jpg

上图是对用户搜索的三种回答:


左:Google的算法给出的搜索结果,答案具有一定的先后顺序


中:GPT-3风格的答案,清晰明了,但是不能证明引用来源的合理性。


右:论文提出的系统,其将搜索结果中的「最佳答案」直接整合到回答中,并用注脚的形式指出答案的来源。


强人工智能已经可以实现了?


研究人员指出,这个系统还不能被称为强人工智能(AGI),因为其同样面临着在自然语言处理的背景下,给出具有普适性的专业回答的挑战。

 

文章对这种专业的「高质量」答案提出了五项要求:

 

  1. 权威

 答案应该通过从权威性很高的来源中产生。这就是为什么在术语序列和文档元数据之间建立更明确的联系如此重要的另一个原因。如果语料库中的所有文档都标注有权威性分数,则在训练模型和生成答案时都应该考虑该分数。 

  1. 透明度

 只要有可能,就应该向用户提供答案的来源。并且应该思考,这个回答的首选信息来源是什么? 

  1. 处理偏见

 预先训练的语言模型的设计目的不是评估经验的真实性,而是对数据中的主要趋势进行概括和优先排序。这为攻击提供了可能的模式,那么就需要使用辅助系统来防止系统做出这种偏见性的回答。 

  1. 多样性的观点

 答案应该具有各种不同的观点,且不应两极分化。例如,对于有争议的问题,应以公平的方式涵盖争议双方。这也与模型对偏见性信息的处理紧密联系。 

  1. 无障碍语言

 除了为使用不同于答案来源的语言的用户提供准确的翻译之外,其答案应「尽可能用原义写成」。


看来实现强人工智能的路还有很长一段要走。


相关文章
|
7月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
106 1
|
2月前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
49 0
|
5月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
99 25
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
GPT-4o竟是道德专家?解答50道难题,比纽约大学教授更受欢迎
【7月更文挑战第9天】GPT-4o,OpenAI的AI模型,在道德难题解答上超越人类专家,研究显示其在50道伦理测试中40题答案与专家一致,引发是否可成道德决策工具的讨论。[[1](https://doi.org/10.31234/osf.io/w7236)]
44 1
|
6月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
87 3
|
5月前
|
人工智能 自然语言处理 计算机视觉
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
308 0
|
7月前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
113 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
281 1
|
7月前
|
机器学习/深度学习 JSON 自然语言处理
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
139 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
万字Gemini技术报告来啦 | Gemini这么强,GPT-4输的有点多,多模态超过人类专家
万字Gemini技术报告来啦 | Gemini这么强,GPT-4输的有点多,多模态超过人类专家
346 0

热门文章

最新文章