注意力机制想要觉醒AI,总共分几步?

本文涉及的产品
文档翻译,文档翻译 1千页
语种识别,语种识别 100万字符
文本翻译,文本翻译 100万字符
简介: 一场疫情,让所有线下会议按下了暂停键,AI也不例外。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

一场疫情,让所有线下会议按下了暂停键,AI也不例外。

但一年一度的“顶会”却不能不开,于是在4月26日,ICLR 2020(国际表征学习大会)就采取虚拟会议的形式,让所有网友得以共襄盛举。

image

值得一提的是,本次ICLR 大会接受了2594篇论文中的687篇,吸引了来自近90个国家的5600多名参与者,比2019年的2700人翻了一倍还多。不过,受疫情影响,这次大会也没有评选最佳论文。

既然如此,有没有出现什么新鲜事物,值得我们思索和探究的呢?

那就不得不提到图灵奖获得者、蒙特利尔学习算法研究所主任Yoshua Bengio,在其特邀报告中着重强调的“AI觉醒”。

此前我们科普过,通用人工智能有多么遥远。怎么短短几年功夫,人工智能就要觉醒了?这就不得不从被Bengio视作机器学习大杀器的注意力机制说起了。

将意识注入机器:注意力机制再添重任

脑极体的资深读者应该对注意力机制并不陌生。在图像处理、语音识别、自然语言处理等机器学习任务中,近两年来都会引入注意力模型。

这么受业界欢迎,它的特点自然很突出:

一是可以让神经网络学会只关注特定的部分,大幅度提升任务的效果与效率,在神经机器翻译、预训练语言模型、图像识别等任务中都表现出了前所未有的成效。2015年Bahdanau 等人提出注意力机制之后,就被ICLR 录用,如今它的各种变式已经成为机器翻译算法的“标配”。

二是降低机器学习的成本,同时增加可解释性。大家都知道深度学习神经网络的模型训练,往往依靠大规模的数据集,不仅数据获取成本很高,训练的算力、时间也不菲,而注意力机制的“选择性”,能够直接为训练提质增效,并且还能为序列数据建立了权值和映射,从而让输入和输出能够联系起来,避免了算法的“黑箱性”。

既然注意力机制并不是什么新鲜事物,为什么Bengio特意在其报告《与意识相关的深度学习先验》中,将注意力机制奉为圭臬,甚至成了AI的希望?

image

简单来说,Bengio认为注意力机制能够帮助机器学习模型获得“有意识”的推理。

此前,诸多算法创新(如自监督学习、元学习、多任务学习、迁移学习等)都是在帮助机器学习获得“无意识”,也就是与人类直觉、习惯、先验经验等类似的能力。

有了这种能力,AI可以很快地执行一些直觉型的任务,让人感到非常智能。比如当AI被训练学会了一些隐性知识以后,能够将这些知识内化,在遇到新事物时不需要重新训练,就能够很快适应。举个例子,当AI记住路况之后,它能够自如地跟乘客聊天,同时也不耽误自己随时响应交通状况、安全驾驶。这是不是已经超越许多人类驾驶员了呢?

image

但如果是在一个全新的道路上开车,如果有人在耳边吵闹,就会打断人类司机的思路,使对方无法集中精力处理。这时候就要用到前面提到的“有意识的”系统,来将一些新的概念,在新的情况下与不熟悉的东西联系起来。

就像《西部世界》的科学顾问、神经学家大卫·伊格尔曼(David Eagleman)所说,意识,是一种突破程序设定的连接。

当机器可以超越设定开始自行推理和思考,适应甚至推断出外界变化发生的原因,这不就是Deloris(《西部世界》女主角)们觉醒的时刻吗?

从这个角度讲,“有意识”的推理能力,正是深度学习变强大所需要的。

从超越人到模仿人,AI的回归之路

既然“操纵”意识这么带感,学者们又是如何为之努力的?过去数年间,注意力机制已经发生了不小的发展和进步。

从时间上看,注意力机制的能力开始为AI所用,要追溯到2014年谷歌团队在一个RNN卷积神经网络模型上用它来进行图像分类。但真正爆发,主要还是由于其在NLP机器翻译任务中证明了自己。

2017年,谷歌机器翻译团队发表的《Attention is all you need》中,提出了一种新颖的基于注意力的机器翻译架构,大量使用自注意力(self-attention)机制来学习文本表征,成为当年最具影响力的论文之一。

随后,它开始被广泛应用在基于RNN/CNN等神经网络模型的NLP任务中,也延伸出了不少变式,比如基于输入项的柔性注意力(Item-wise Soft Attention)、基于输入项的硬性注意力(Item-wise Hard Attention)、基于位置的柔性注意力(Location-wise Soft Attention)等等,核心指导思想都差不多,就是在神经网络的隐藏层,增加注意力机制的加权。

但需要注意的是,注意力机制依然存在不少问题:

比如,注意力机制与其说是一种技术,不如说是一种指导思想。通过模拟人类阅读、听说中的注意力行为,来为不同输入数据分配不同的权重。想要去的比较理想的效果,依然需要大量的数据投入训练。

可以说,注意力机制在神经机器翻译(NMT)任务上的优秀表现,依然建立在有大量高质量语料的前提下。一旦面对比较极端的情况,比如某些语言几乎没有任何双语语料,那再强的注意力机制也得抓瞎。

image

再比如,注意力机制达到“有意识”推理的前提,是具备理解隐性知识的能力,也就是那些难以用语言、文字、图表进行表述说明,不经过逻辑推理、而是借由感官、直觉、领悟获得的能力。

这对人类来说是“小菜一碟”,但想要将其嵌入到深度学习算法里面,却并不是一件简单的事。DeepMind就曾开发出一个交互式网络,试图教会智能体像婴儿一样迅速了解到某些对象的属性和关系。交互式网络的预测结果要比一般神经网络精确得多,但距离模拟人类直觉迅速反馈,还为时尚早。而且,机器必须犯上成千上万次的错误,才能做出和人类一样的正确操作。

换句话说,Bengio眼中的“注意力机制”,其实是升级版的“注意力3.0”,距离“机器觉醒”还早着呢。

机器觉醒,光靠Attention单打独斗还不行

上述问题不仅阻拦了注意力机制的“封神之路”,也是阻挡人工智能发挥更高价值的障碍。

接下来向何处去,或许正如注意力机制被引入RNN一样,继续主动引入其他领域的算法和模型,会带来不可知的神奇效果。

而从ICLR 2020的技术趋势来看,也有不少算法开始被用来,与注意力机制一起解决诸如直觉、泛化等机器能力的重要问题。

比如元学习。在今年的入选论文中,谷歌有5篇是专门研究元学习。

简单来说,元学习就是要让智能体利用以往的知识经验“学会如何学习”(Learning to learn),然后更高效地完成新任务。

具备这种能力,自然也就能够解决训练数据不足、系统通用性低等问题,帮助AI不断丰富和修正自身的知识网络。具备了这一能力,获得了人类常识的AI才有希望到达“有意识”的推理。

image

最后,也有必要大开脑洞,试想一下如果“有意识”的推理实现,AI真的觉醒了,又会为人类带来什么呢?

猜想一,AI的服务能力会显而易见的提升,在实践中不断学习处理复杂的工作将不再是难事,想象中的智能家政机器人、智能女友/男友,都不再是问题。

猜想二,AI可以像人类一样推理,同时拥有了情感,那么自然可以缔结自己的社会关系,届时为什么整个社会还需要如我这样的普通人,咱也不知道。

幸好,今天无论是注意力机制,还是人工智能本身,想要复刻人类的脑力还需要更长的时间,以及更多的耐心。更值得欣慰的是,在疫情“黑天鹅”的席卷之下,AI依然带领全球产业者连接、思考、探寻未来的藏宝图,这或许就是技术最令人沉迷之处。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-07
本文作者:藏狐
本文来自:“脑极体”,了解相关信息可以关注“脑极体

相关文章
|
6月前
|
人工智能 JSON 前端开发
【Spring boot实战】Springboot+对话ai模型整体框架+高并发线程机制处理优化+提示词工程效果展示(按照框架自己修改可对接市面上百分之99的模型)
【Spring boot实战】Springboot+对话ai模型整体框架+高并发线程机制处理优化+提示词工程效果展示(按照框架自己修改可对接市面上百分之99的模型)
|
3月前
|
人工智能 JSON 数据格式
|
6月前
|
机器学习/深度学习 数据采集 人工智能
构建未来:AI驱动的自适应网络安全防御机制
【4月更文挑战第25天】随着网络攻击的不断进化,传统的安全防御策略已显得力不从心。本文提出了一种基于人工智能技术的自适应网络安全防御框架,旨在通过实时分析与学习,动态调整安全措施以对抗日益复杂的网络威胁。该框架结合了深度学习、行为分析和预测模型,不仅能够识别已知的攻击模式,还能预测并防御未知的威胁。文章详细探讨了该框架的设计原理、关键技术和实现方法,并通过实验验证了其有效性和优越性。
|
机器学习/深度学习 人工智能 数据可视化
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
注意力机制这么好用,怎么不把它塞到卷积网络里?最近Meta AI的研究人员提出了一个基于注意力的池化层,仅仅把平均池化层替换掉,就能获得+0.3%的性能提升!
312 0
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
|
机器学习/深度学习 人工智能 自然语言处理
何以为猫?可解释AI从语义层面理解CNN的识别机制
何以为猫?可解释AI从语义层面理解CNN的识别机制
107 0
|
机器学习/深度学习 人工智能 计算机视觉
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3(二)
注意力机制这么好用,怎么不把它塞到卷积网络里?最近Meta AI的研究人员提出了一个基于注意力的池化层,仅仅把平均池化层替换掉,就能获得+0.3%的性能提升!
205 0
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3(二)
|
机器学习/深度学习 人工智能 算法
Science子刊:人脑存在加速学习机制,算力赛过最新AI算法
机器学习虽然受人脑启发,但实验神经科学和ML两个学科已经70年没有沟通。以色列交叉学科团队发现,人脑存在加速学习适应机制,新机制人工神经网络计算能力远超最新AI算法。
233 0
Science子刊:人脑存在加速学习机制,算力赛过最新AI算法
|
机器学习/深度学习 人工智能 编解码
请把注意力放到百度AI上:技术、芯片和无人车更值得被关注
今天的 AI 开发者大会上,百度又一款语音 AI 芯片「鸿鹄」亮相,宣布百度飞桨与华为麒麟芯片达成深度合作,首次亮相了无人驾驶出租车项目「Apollo Go」。一手技术新进展,一手 AI 商业落地,这届百度开发者大会的亮点全在此文。
155 0
请把注意力放到百度AI上:技术、芯片和无人车更值得被关注
|
机器学习/深度学习 自然语言处理 算法
DeepLearning.ai学习笔记(五)序列模型 -- week2 序列模型和注意力机制
一、基础模型 假设要翻译下面这句话: "简将要在9月访问中国" 正确的翻译结果应该是: "Jane is visiting China in September" 在这个例子中输入数据是10个中文汉字,输出为6个英文单词,\(T_x\)和\(T_y\)数量不一致,这就需要用到序列到序列的RNN模型。
922 0

热门文章

最新文章