8月26日至27日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会发起主办、中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大、规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用。大会由CSDN网站进行专题直播,并由百度开放云提供独家视频直播技术支持。
在26日的主题报告环节,微软人工智能首席科学家、IEEE Fellow邓力博士做了《驱动大数据人工智能多种应用的三类深度学习模式》的主题演讲,他首先介绍了深度学习的基本定义,以及深度学习的三种模式。邓力表示,AI=感知+认知,首先是感知,更深层次的是认知,而人工智能目前更需要解决的是认知的问题,而深度学习是提升认知,推进人工智能进一步发展的最有效的方法。然后,邓力介绍了深度学习在语音识别方面的进展,他表示,目前苹果、谷歌、亚马逊都在用深度学习研究语音识别,并取得了较好的效果。接着,邓力介绍了深度学习对于图像识别的影响。邓力接着介绍了深度学习在机器认知方面的进展,通过使用Long Short-Term Memory RNN等模型,目前已经可以实现效果比较好的效果。最后,邓力介绍了增强学习,他表示,深度学习加增强学习可以解决更复杂的人工智能难题,而深度非监督学习则是未来人工智能的又一个重要的研究课题和未来的发展方向。
以下为邓力演讲实录(未经演讲者本人确认):
邓力:今天讲的题目是深度学习的三个模式,第一个模式是大数据来深度学习,第二部分就是怎样增强学习方法,把这个深度学习做的更好,因为题目有深度学习,我就希望深度学习的基本概念大家要了解,在一开头就把深度学习这三个基本要点给你讲出来了,然后第一个就是原始定义,深度学习有好多层的非线性理解变化,这本身并不是特别重要,首先好多层的非线性层次的话,这跟大脑是有一定的关系,他就是使得从端到端的优化很必要,否则的话在深度学习之前的很多模型就比较的浅,端到端并不是特别明显,而且很大一部分深度学习的进展是包括怎样把这个深层优化解决,然后使它有非常大的进展,更重要的是好多层的非线性的变化的结果是什么呢,是在不同的层次上面把它抽象化进行层次的分类,这一点在所谓的图像上面显得特别的清楚,在不同的层次上面看到有的时候是比较浅层的特征,接近于最后的认知方面越来越明显,在语音识别上面我们也发现有类似不同层次的抽象。
实际上这种抽象对于最后的理解意义是更大的,可能最后会有一些例子来表示,这个是深度学习的主题,这次演讲的主题,给深度学习的机器进行学习之前一定要把输入匹配好,否则这个Y和X之间就做不了深度学习,他一定要跟输入系统在语音识别的情况下,你讲一个句子,这种学习方法很大的局限是什么,就越来越大之后,你这当中的价钱非常高,使得非常非常大规模的深度学习,并不可以那么如意的进行,所以现在很多的公司内部做深度学习,只是把数据量局限到三千小时、三万小时,然后再到三十万小时、三百万小时,也要按照现有的学习方法来训练的话,这已经到了一定程度,这个经济上就划不来。
还有一个叫做Reinforcement,另外一个就是非建构学习,这两个方向的学习是目前深度学习的更加活跃的领域,大部分是在几条线运用,很多成功的例子,能够为下一步的这两个更重要的深度学习做一下分析。
我这个题目还有一个AI,什么叫人工智能,就是人为造成的智能,所以从我们现在的角度来讲,就想把人工智能分成两部分,一部分是所谓的感知,那感知的意思是说什么,就是说就你所看到的这些现象,视觉的现象,还有语言的现象、音乐,跟这个人怎样把原始信号变到一些跟认知有关的过程,语音识别也属于认知,图象识别也属于认知,下面更重要的是叫做机器的认知,包括自然语言,机器认知很大的部分,就是怎样把符号进行变化,然后就可以形成知识,刚才你看到李教授讲的那些机器人,得到控制必须要理解你的物理过程,然后还有很大的一部分是包括人工对话,这一方面最近很多公司在做非常大的投入,包括微软公司也有很多有关的消息,所以我也想趁这个机会向大家介绍一下我们微软的广告,让大家稍微了解一下这个新的领域,这个领域完全是属于机器认知部分的人工智能。
我现在在讲之前,先把人工智能的运用跟大家讲一下,刚才谭院长也有讲过,首先让大家知道,深入学习在语音差不多是2010年的时候,2年之后获得成功,他们用的方法都是现在还没有用到将来可能有用的大数据量,只不过比他们之前大的数据的识别,然后包括翻译包括理解包括问答,现在第一步的成功我们已经看到,两年前左右,我们看到这个成功率,比如说翻译现在已经超过了传统的方法,然后在Games上面也有很大的成功,也起了一定的作用,那么下一步的波浪,这只是我的猜测,我现在有相当多的背景,比如说知识提取,现在完全改造成从以前的的方法变成到现在的人工智能方法,一些主要的厂商都在做,像百度也是往这个方向在做,现在大家好像还没有看到,实际上有很多人工智能都在里头。
下一步的成功,这只是现在很多很多研究在这方面,就是所谓的对话,就直接用现有成功的深度学习达到成功的效果,然后其他的今天没有时间讲,据我了解有相当多这方面的应用,就包括最近你们看的谷歌地图,在环境保护上面,而且在建设方面,已经有了巨大相当多的突破,那些报道已经人员节省了40%。
首先把这个建构深度学习在语音识别的应用给大家做一个回顾,基本思想就是用非常大量的匹配的输入数据,输入你要知道他讲什么,把这个准备好以后就丢到深度学习的机器以后,就一步一步往下讲,2009年差不多年底的时候,我们当时做了一个非常好的合作,当时我们到了微软来,然后把这个基本的深度学习给我们介绍了,因为当时我们在这之前几年之内,我们实际上用了非常强的方法,从语音识别的过程来讲,大家知道说他是一个非常强的多层次的结构,比如从语音深层次的角度来讲,首先这个概念比如现在要讲什么东西,几个毫秒之前我的脑袋就知道,或者昨天晚上就过了一遍,然后就不同的声音的元素是跟不同的控制的目标连在一起的,从这个里头可以控制机器,所以刚才李教授讲手的控制,然后嘴巴、舌头的控制,这个完了之后可以描述动态系统,那么运动完之后有一个原理,把这个运动转化成我的语言,怎样把他变成一个识别,这是一个很传统的方法,然后把它作为非常深的,我们做了4到5年的时间。
当时在2006年写了一篇文章,那个实际上跟我讲的非常像,他用的方法是什么,就直接是神经网络来把最后的生产出来,这个是非常有用的。
看了以后当时就觉得这个语音又到我们本身这上面,确实是有影响的,而且这个方法到现在还在进行。
我们做了两年到三年做这个方法,直接用很简单的神经网络,差不了多少,所以我一看这个东西肯定有学问,所以我们就继续把它加大,原来的计划是加大到一定程度以后再回去把语音知识用物理的形态,现在太成功了,大家根本不想回去,但是我想下一步不能做无架构的深度学习,这些是必要的。
经过了大概2年多的艰苦奋斗,包括研究院北京的员工我们合作,合作了以后呢,我们就终于在2012年我们提出一个很重要的,差不多2010年的夏天的时候,我们发现说如果数据量变的越来越大之后,原先的方法,这可以把它丢掉,为了保证说我们这么做是有比较好的理论根据,我们当时还做了非常强的分析,从理论上看出来大数据确实可以不需要那么复杂的,原理实际上很简单。现在所有的深度学习这一块基本上就不用当时所用的方法,而且你们看文献的时候,你们要看2012年之前的文献的时候都是合在一起,我们在2012年其实是分开的。
这么成功的语音识别方法,我们并没有很多的知识权保护,这跟大家的人工智能有点关系,所以他就把我们这一段讲的,讲的非常显著,我觉得这个也有关系。
深度学习2015年的时候他就成为我们一个非常好的合作者,这个是2012年的时候,今后两三年之后,2014、2015年也降到了,我就不讲太多,在一年之后成功之后,非常快,跟以前我们用的很复杂的方法来讲,他需要的要少多了,所以非常快,所有的产品都全部用深度学习来驱动,苹果跟亚马逊一般很少在外面去讲东西,从这个过程我们就知道,再过了一年以后,差不多2014年,Demo就完全转成为产品,你们可以用不同的语音,现在已经可以互相对话了。
下一步讲一下深度学习对Recognition的影响,对于图像识别会比他快更多,这个好像是2011年开始,因为我自己直接参与这方面的工作,所以你看在这之前的话差不多一直20%左右,2012年那时候,那个时候不完全知道大数据可以把语音识别淘汰下来,当时他们出来的时候,公布的时候是10月份,马上就说你看他是多少,当时把这个结果发给微软,我说你们看一下,我的同事也都说可能出了一些问题,也可能说这个是不够好,就是投机取巧,我当时一看就马上知道和语音识别一模一样,就是把模型做大。
这个是2013年的成立的公司,2015年就是几个月前,我们微软的团队做了这个,已经低于人的错误率,哪怕所用的神经网络是更深,这个深度在多少年以来一直到2016年,大家认识到这个深层是这么的重要。
在认知上面,我刚才讲的都是在感知上面的应用,在认知上面的应用,最近很大的一个突破是在机器上面,用记忆模型跟用注意模型,这个都是人的认知的技能,把这些模型用到深度学习上,让他能够解决机器认知上面的问题,大家对深度学习有一定了解的话,所以怎样把这个让很多的Short-Term,就变成Long-Term,就人脑的残迹的记忆,所以这只是一个数学的模型,,这个比较复杂,然后他是一个动态的模型,以前比如两千三千就被几百个给他替代掉了,有了这个之后就可以记一些相当好的信息,他如果需要,他可以马上忘掉,用什么方法使得这个模型把有住的记住,没用的忘掉呢,所以说我看了很长时间,然后两个礼拜前在1997年发明的这个模型,20年没有人用,首先非常复杂,我们两个都同意说这个模型是一个现象模型,跟人类的记忆是差的非常远,那么有了这个模型之后,可以做的很多的一些方法,包括机器学习,包括一些语音识别,然后理解,然后包括做人工对话,当然你们可以认识到说当他本身的这种神经的机制跟真正人的认知有这么大区别的时候一定有很大的空间让大家做更多的研究。
有了这个之后你就可以做非常有意思的东西,这个是一年多前发表的,这个东西为什么会翻译的这么好,他的精髓在什么地方,精髓就说访问进去英文出来,然后他基本上就是我访问出去,我到这里以后,这一层已经把所有的信息给他,另外也输入,然后把这个解码器的网络进行驱动。
下一步我就讲一些更深层的一些记忆模型,这个是Memory,最后记忆就可以出来,这个就不讲太多。增强学习的话可以把它理解成说就以前的增强学习旧的加上深度学习,把它加在一起就可以解决以前的学习解决不了的问题,要是没有深度学习的话,这个本身就解决不了这个问题,增强学习的方法是看长期的,开始的话也可能一个人打一个,那你看这个,一下子跑到上面去,就短期也可能会差一点,但是长期的话,在整个学习的过程中可以把这个长期的给保存,这种方法用到阿尔法狗使得他战胜高手。
这里有两个深度学习的网络,第一个是现在是哪一步可以下,第二个神经网络让你说下到最后好不好,阿尔法狗是把不同机器学习方法组合在一起,第一个神经网络使得他的宽度减少,这样就可以使得正在学习搜索方法在相当比较局限的时间内可以把所有主要的那些东西全部搜索出来。
再讲一下深度增强学习既定化的应用,这个不讲很多,但是最近我写了一篇,就是从高层上面机器学习角度来讲的,首先就说现在已经达到了一个局限,同时呢成为了一个新模式,人机交界应用上深度学习已经到这个领域来了,这个应用为什么需要用增强学习方法呢,是因为说我们交互过程中并不是说每一个对话每一个阶段就要得到什么,这个不可能的,真正你说要是用机器绘画,可能经过几轮,如果你想用这个机器干一些事情,让你买机票、订餐馆,你最后得到的信息是在完成任务之后,所以这个是非常非常符合的地方。
最后讲一下,这个是一个非常大的领域,我们也在研究,要是没有这个你到底怎么做学习,大家都没有想到,但是它的精华就不同的研究部门有不同的想法,然后我们的想法是就说一定要把整合人类的现有的知识包括语音识别训练,应该把这个深层学习的方法整合到一起,你们要做深度学习,我们现在很多人都是用,做不了,你首先就不知道怎么优化,我们想了一个办法。
我们做一个比较简单的实验给你看,你要是做神经网络,这个很奇怪,他旁边有一个很大的堡垒,我们研究的时候其中一个结果,让你看到说这个困难在什么地方。
最后一段话,从我们的角度来看,将来的AI会往什么方向发展,第一个就说我们的AI是一个一般式的AI,所以今天早上谭院士讲的话跟我是完全符合的,用一个最通用的,最后成功的AI一定是通用的AI,否则这个AI不会被整个业界广泛的采用,怎样把一方面的知识转化到另外一方面的知识,做一个非常深度的研究,而且必须要能够自动的获取并且产生新的知识,就使得新的知识能够把所有的知识融合在一起。我就希望整个业界能够把人工智能作为一种科学的研究来看待,而趋向就是广泛能够使用AI,语音识别AI跟图像识别AI还不一样,图像识别的深度学习你要有不同的结构,我们语音识别就有不同的结构,然后你要是阿尔法狗用的方法跟做下围棋和下象棋也是不一样的,将来应该有一个统一的构架,他可以解决各种各样的问题,比如说医疗,比如说看书,比如说小孩要高考,用一个AI就可以了,我今天就讲到这里,谢谢大家。
本文来源于"中国人工智能学会",原文发表时间"