各位老师、各位嘉宾,大家下午好。今天非常容幸能参加这个会,作为人工智能界的一个晚辈,包括在市场上的创业公司,今天跟李院士还有各位世界级的专家一起分享压力非常大,也非常容幸。我们其实是跟陈博士比较类似的,我的背景是中科大毕业的,后来在中科院待十年的时间。四年前我们在2012年决定,因为我觉得人工智能产业是一个秀才的团队,大家基本上都是博士,至少也是硕士以上的学历。我们当时也是从做研究开始走到人工智能创业场上,相信用我们的技术能力去改变一下这个世界。
我今天做这个分享的,无论是从高度、广度、深度,我不会讲的比专家们更专业。我想跟大家分享的是,我们在人工智能创业里面,技术其实仅仅是其中一个环节,可能只占了30%左右的成分,我们把技术的图景书写下来以后,我们如何看待产业的发展。因为我们是从语音交互开始做这个行业的,所以我跟大家分享的是物联网智能交互服务。
大家可以看到我们整个物联网的话,可能下一场的工业革命,因为会有越来越多的设备连接到我们的互联网,可能是PC互联网,到移动互联网,到物联网的趋势。统计来说预计2020年的时候,整个市场上将会有超过200到300亿台的设备,会出现在我们的生活当中。在这里面带来的结果就是有海量的数据,有非常大的数据收集上来。这里面市场的价值也是非常大的,应该有万亿美元的规模,这都是我们看到很多的统计报告抽取出来的数据。
从交互的角度来说的话,我们其实经历了几个时代。我们从PC时代开始讲的话,当时是鼠标键盘是最主要的交互,然后接下来是移动时代。移动时代我们的触碰包括传感,已经给我们带来的很多的体验上的改变。在物联网时代就会更加的丰富多彩,语音、图像,AR、VR,都会很大的应用空间。一个大的特点就是机器为中心转为用户为中心的交互,就需要我们有更好的智能化来支持这个交互过程。
人工智能这60年的发展风风雨雨,今天也非常容幸,我们在这个阶段应该是第三次的春天。我想最大的一个特点就是说我们以前都是技术,都是科研人员在主导这个事情,包括政府的投入在做这个事情。第三次来说的话,大家可以看到很多的大企业,包括创业的公司都在用产业力量推动发展。一个是用户的数据规模在增加,另外是产业的需求非常强大。有需求的推动的话,就会有非常强的动力。作为基础的话有两点,一点就是我们的存储跟计算能力的提升,另外就是学习算法的提升。大家看到寒武纪的CPU也是为我们的机器学习而生,我想会极大的推动这个产业的发展。我们相信有产业力量介入的情况下,应该会有比较大的成果沉淀下来。
这页可能是我唯一讲起来跟技术有关的。我们所有讲的智能或者人工智能来说,学习是永恒的核心环节。现在非常火热的深度学习,跟它对应的就是浅度学习。所有的学习的根源就是来源于数据,我们如何从数据做机器学习跟人工智能。数据过来之后第一步的问题就是抽取特征,下来就是分类的问题,基本上我们大部分是集体学习,都解决这个层面的问题,这是核心的问题。这个部分我们称之为感知的环节,我如何从数据里面去感知,它到底是什么物体,如何辨识,产生一个概念。最后就形成我们的认知、决策、规划、推理等等这些人工智能更复杂的行为,才能完成一个闭环的人工智能技术。
在这里面我们发展也经历了几个阶段,一个是最早的时候有一些经验特征和规则做分类,这是最早期的。大概九十年代左右的话统计学习就大行其道,因为这里面分成两个问题,一个是特征工程,如何抽取特征,如何做分类优化,都是做优化的方式解决这个问题,数学上非常的严谨。最近是深度学习,是跟特征学习和分类优化结合在一起,就像做一个整体的规划,我们称之为端到端到的规划,也是Marc Hamilton教授兴起的。他们觉得浅层的学习不足以表现人工智能分类的问题,所以有非常副复杂的网络结构,结合大规模的数据,碾压了过去二三十年里面积累的统计学习的效果,但这块还是有很多的数学性的原理或需要再去进一步的挖掘和探索。
深度学习未来是不是有可能再跟浅度学习有结合呢?去年3月份的文章里面,有一个编程学的文章。用非常小的数据去学习,我相信这又是另外一个兴起的路径。
我们最终的人工智能的技术其实我们可以解决很多的问题,但最终还要帮助到用户,如何能解决他真实的问题。这种情况下才能够说我们蓬勃发展,因为只有产业的推动,才是我们真正所有技术的完善最强的动力。用户期待归纳为三点,一个就是我们有一个非常好的机器人,能很智能的交互,像我们人与人的交互,语音是非常自然的环节。交互之后需要的是内容跟服务,能不能有非常优质的内容和服务,而且可以优化服务,这是一个需求。第三点是智能的学习,智能机器人能不能随着我们越用就越智能。像我们知道AlphaGo就可以越来越会下棋,但这个下棋是一个规则和各种条件,相对比较整齐的情况下去做的,这里面基本上就是计算的过程。在我们交互的过程当中这个学习会比较复杂,因为我们现在比较好的学习的办法可能只能取得20%或者10%的错误率的下降。
未来来说我们希望通过对话去完成所有的服务,这也是当初Googel提出的概念。现实会有非常多的问题,大家知道虽然我们现在兴起了非常多的期待,但在现实当中我们有很多的问题需要解决。因为我们公式上推导非常顺畅的东西,但实际应用当中并不过关。因为有一些真实的噪声环境,还有功耗和资源的消耗,这个非常大。还有一些自然交互的体验,因为交互过程当中其实现在人跟机器交互的时候还会存在困惑,把机器摆在那里面的话,其实人是一种交互的。另外一点现在机器的能力还没有做到100%,所以这个过程中还会出现错误,出现错误的时候会有一种受错感,就学习交互的设计来弥补。另外就是内容跟服务的优化,还有自学习的能力。这些现实的问题都是我们需要去解决掉的。
结合我们的经验来说,我们云知声的定位就是一个面向物联网的人工智能服务的公司,中间就是我们的人工智能技术,其中主要是语音识别、语义理解,包括语音合成,还有生文认证,等等这一系列跟语音交互密切相关的技术。我们搭建起来是一个云端新的产品的体系,这个新的体系的话主要解决的就是一个降噪的问题,因为通常在一个非常大的环境里面,我们需要有一个麦克风才能把声音从非常复杂的环境当中拿出来,所以这是我们需要推出的AI新的需求。另外就是AI、UI,AI是语音作为交互主要手段的模块,因为对于大多数的物联网设备来说可能并没有屏幕,甚至键盘可能都没有,像手表、大屏电视等等这些设备。云端承载的东西是非常多的,一个是用户所需要的内容还有服务,还有根据用户的习惯构建起来的用户画像,云端就构成了一个产品的闭环。
机器人来说,这三个产品如何能把我们的智能终端连接起来?首先是我们的放在听觉的部分判断声音的方向和距离,定向降噪。AI、UI就是通过对话的方式解决人跟机器交互的问题,AI服务就是通过云端,用户真正交互了以后,很多的内容是从云端获取的,同时云端也会学习人的需求。掌握了一个习惯之后我们可以有更好的服务,一个是技术层面模型的优化,另外是从内容和服务的角度去优化这里面的内容。
目前来说我们已经在智能家居、智能车载,还有教育、医疗等等有广泛的应用。我们已经有其中六个大的家电厂商,有五家在我们的解决方案,我们在后视镜的市场,也是113家参展的厂商,其中有将近60家用的我们的解决方案。还有教育跟医疗方面,都有非常多的应用。我们的云平台到目前为止已经支撑了降低1亿的终端设备,另外每天的用户的活跃用户量都在1亿上下。
大家可以看到人工智能在蓬勃发展的时候,未来会有一个什么样的场景。刚才李院士也给我们分享,我们归纳为三类。一类是属于灾难的结果,因为从我们人的角度来说,以我们人的体力和结构来说的话,能成为食物链的上端,完全是因为我们具备地球上最强的大脑,最高的智慧。一旦我们失去这种能力,机器能取代我们的话这是非常危险的事情。但对这个技术的发展,像刚才李院士说的我们是要保持敬畏之心的。第二种是相对比较乐观的看法,人工智能可以让我们的生活变得更加美好。但与此同时将使得我们人类的认知能力得到比较大的飞越。过去我们是没有办法通过大数据认知这个世界的,当我们有人工智能技术之后可以很好的认识到世界真实的情况,很多经验性的东西可能将会被颠覆和推翻掉。一种悲观的观点可能会进入到第三次寒冬,我们过去两次对人工智能有非常大的期待,也没有落地。我想最关键的来说还是我们的产品服务能够比较好的落地,能解决用户的问题,但它的风险我们如何控制它未来对人类的危险,我相信在技术发展的过程当中还是会去持续发展的思考的问题。因为如果没有敬畏之心的话,控制不了。
60周年我们也向60年来AI领域里面付出卓越努力的先辈和同行们致敬,谢谢大家。
本文来源于"中国人工智能学会",原文发表时间" "