谷歌发布万亿参数语言模型,语言模型何时超越人类语言能力?

简介: 处理过程更加复杂的人类语言模型在近几年得到了迅速发展,近日Google提出万亿参数语言模型Switch Transformer,进一步提高了语言模型可以达到的顶峰。这一切都表明,语言模型领域正处于「快速升温」的阶段,未来如何,我们拭目以待。

微信图片_20220112112327.jpg


在短短几年时间里,深度学习算法经过了飞速的进化,已经具有了可以打败世界最顶尖棋手的水平,并能以不低于人类识别的准确度来精确地识别人脸。

 

但事实证明,掌握独特而复杂的人类语言,是人工智能面临的最艰巨挑战之一。

 

这种现状会被改变吗?

 

如果计算机可以具有有效理解所有人类语言的能力,那么这将会彻底改变世界各地的品牌、企业和组织之间打交道的方式。


可媲美人类的视觉识别模型「率先登场」

 

直到2015年,能够以与人类相当的准确率识别人脸的算法才出现:脸书DeepFace的准确率为97.4%,略低于人类的97.5%。

 

而作为参考,FBI的面部识别算法仅达到85%的准确率,这意味着仍然有超过七分之一的情况是错误的。

 

FBI的算法是由一组工程师手工设计的:每个功能,比如鼻子的大小和眼睛的相对位置,都是手动编程的。

 

而Facebook的算法则主要处理学习到的特征,它使用了一种特殊的深度学习架构,称为卷积神经网络,这个网络模仿了我们视觉皮层不同层次处理图像的方式。


微信图片_20220112112332.png


Facebook之所以能够做到如此高的准确率,是因为它恰当的利用了可以实现学习功能的架构和数百万用户在分享的照片中标记好友的高质量数据,这两个元素成为了训练好的视觉模型可以达到人类识别水平的关键。


多语种高精度语言模型「姗姗来迟」


相比起视觉问题,语言似乎要复杂得多——据我们所知,人类是目前唯一使用复杂语言交流的物种。

 

不到十年前,如果要理解文本是什么,人工智能算法只会计算特定单词出现的频率。但这种方法显然忽略了一个事实 : 单词有同义词,而且只有在特定的上下文中才有意义。

 

2013年,Tomas Mikolov和他在谷歌的团队发现了如何创建一个能够学习单词含义的结构:

 

他们的word2vec算法可以将同义词之间彼此映射,并且能够对同义词的大小、性别、速度进行建模,甚至还可以学习到诸如国家和首都等函数的关系。


微信图片_20220112112334.png


然而,仍有很重要的一部分没有得到处理——语境(上下文关系)。

 

这一领域的真正突破出现在2018年,当时,谷歌重磅引入了BERT模型:

 

Jacob Devlin和他的团队利用了一种典型的用于机器翻译的架构,并使其学习与句子上下文相关的单词的含义。通过教会这个模型去填补维基百科文章中缺失的单词,这个团队能够将语言结构嵌入到BERT模型中。


微信图片_20220112112336.png


仅用有限数量的高质量标记数据,他们就能让BERT适应多种任务,包括找到问题的正确答案以及真正理解一个句子是关于什么的。


微信图片_20220112112338.png


因此,他们成为了第一个真正把握语言理解的两要素的人:正确的架构和大量高质量的数据。

 

2019年,脸书的研究人员将这一研究进行了进一步的推进:

 

他们训练了一个从BERT衍生出的模型,令其同时学习100多种语言。训练的结果是,该模型能够学习一种语言的任务,例如英语,并使用它来完成其他任何语言的相同任务,如阿拉伯语、汉语和印地语。


微信图片_20220112112340.png


这个语言无关模型在语言上可以与BERT有相同的表现,此外,在该模型中,语言转换过程中的一些干扰的影响是非常有限的。

 

在2020年初,Google的研究人员终于能够在广泛的语言理解任务中击败人类:

 

谷歌通过在更多数据上训练更大的网络,将BERT架构推向了极限——现在,这种T5模型在标注句子和找到问题的正确答案方面可以比人类表现得更好

 

而10月份发布的语言无关的mT5模型,在从一种语言切换到另一种语言的能力方面,几乎可以与双语者一样出色。同时,它在处理语言种类方面有着不可思议的效果——它可以同时处理100多种语言。


微信图片_20220112112342.png


本周公布的万亿参数模型Switch Transformer使语言模型变得更庞大,效果也变得更强大。


微信图片_20220112112344.png


图:Switch Transformer编码块


畅想未来,语言模型潜力巨大


想象一下,聊天机器人可以理解你的任何想法:

 

他们会真正理解语境并记住过去的对话。而你会得到的答案不再是泛泛的回答,而是正切主题的。

 

搜索引擎将能够理解你的任何问题:

 

你甚至不需要使用正确的关键字,他们也会给出正确的答案。

 

你将得到一个了解你公司所有程序的「AI同事」:

 

如果你知道正确的「行话」,就不用再问其他同事问题了。当然,也不再会有同事和你说:「为什么不把公司所有文件都看一遍再问我?」。

 

数据库的新时代即将到来:

 

跟结构化数据的繁琐工作说再见吧。任何备忘录,电子邮件,报告等,将得到自动解释,存储和索引。你将不再需要IT部门运行查询来创建报告,只需要和数据库说一下就行了。

 

而这,还只是冰山一角——

 

任何目前仍需要人类去理解语言的过程,都正处于被破坏或被自动化的边缘。


Talk isn’t cheap:庞大语言模型耗费巨大


在构建宏伟蓝图的同时,别忘了,还有个「陷阱」在这里:

 

为什么这些算法不是随处可见?

 

一般情况下,训练这些模型大概率要花费极其昂贵的价格。举个例子,训练T5算法的云计算成本约为130万美元。


微信图片_20220112112346.png


虽然谷歌的研究人员非常友好地分享了这些模型,但是,针对当前的特定任务,如果不对它们进行微调,那么这些模型在具体任务中很可能就无法使用。

 

因此,即使大公司开源了这些模型,对于其他人来说,直接拿来使用也是一件代价高昂的事情。

 

而且,一旦使用者针对特定的问题优化了这些模型,执行的过程中仍然需要大量的计算能力和超长的时间消耗

 

随着时间的推移,随着各大公司在微调上的投入,我们将看到新的的应用出现。

 

而且,如果大家相信摩尔定律,我们可以在大约五年内看到更复杂的应用。此外,可以超越T5算法的新的模型也将会出现。

 

2021年初,我们距离人工智能最重大的突破以及由此带来的无限可能,仅仅只有一步之遥。

 

参考链接:

https://venturebeat.com/2021/01/17/language-ai-is-really-heating-up/


相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
93 1
|
6月前
|
存储 人工智能 数据处理
Claude 3发布,超越ChatGPT4的大模型出现了
【2月更文挑战第14天】Claude 3发布,超越ChatGPT4的大模型出现了
105 3
Claude 3发布,超越ChatGPT4的大模型出现了
|
22天前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
25天前
|
机器学习/深度学习 存储 人工智能
[大语言模型] 情感认知在大型语言模型中的近期进展-2024-09-26
[大语言模型] 情感认知在大型语言模型中的近期进展-2024-09-26
34 0
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
3月前
|
Web App开发 人工智能 安全
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
|
5月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
118 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
92 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
86 3
|
6月前
|
人工智能 搜索推荐 UED
Perplexity AI与ChatGPT相比如何?
【2月更文挑战第17天】Perplexity AI与ChatGPT相比如何?
399 2
Perplexity AI与ChatGPT相比如何?