「人工智能第三次浪潮究竟是什么?第三次浪潮是不是也像前两次一样很快大潮退去?今天我们对人工智能未来的预测是不是过于乐观?这是一个真正的产业大潮还是概念的泡沫?」
科大讯飞董事长刘庆峰在发布会上做开篇演讲
在昨日(11 月 23 日)的讯飞 2016 年度大会上,科大讯飞董事长刘庆峰开篇便提出了以上这些疑问。
其背后是这家在语音行业耕耘 17 年、并不断拓展应用领域、并在锤子发布会后「一夜爆红」的公司,对人工智能行业的思考和落地。
第三次浪潮?
1956 年,人工智能的概念第一次在达特茅斯会议上提出。
1970 年,人工智能迎来第一次浪潮。第一代神经网络算法,可以证明《数学原理》中绝大多数数学原理。
1984 年,人工智能迎来第二次浪潮。霍普菲尔德(Hopfield)网络的出现,让神经网络拥有记忆功能。
「但前两次大潮后来都破灭了,为什么?因为神经网络本身算法的局限性,也受当时整个运算能力的局限。今天,神经网络有了全新进展,深度神经网络成为基础,基于大数据、云计算的运算平台,源源不断地将基于移动互联网的训练数据输送到后台,」科大讯飞董事长刘庆峰在主题演讲中表示,「我们认为人工智能的第三次大潮已经切实到来。人工智能已不再是一个概念,是可以进入一个又一个的行业的。」
2006 年,当年参与达特茅斯会议的专家重聚,左起为摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫。
纵观十年来人工智能行业的进展,似乎一直在为第三次浪潮的到来铺垫:2006 年,Geoffrey Hinton 提出深度学习框架;2010 年,DNN 在语音识别崭露头角;2012 年,CNN 在图像识别领域异军突起;2014 年,RNN 机器翻译中得到应用;2016 年,AlphaGo「战胜」李世石。
得益于互联网、移动互联网的高速发展,深度学习、神经网络等技术获得了海量训练数据。受益于此,科大讯飞也取得了不少瞩目成绩。在今年的全球语音合成大赛 Blizzard Challenge(暴风雪竞赛)中,科大讯飞再次获得全球第一;在今年的 CHiME 国际语音识别大赛中,科大讯飞三项指标均为全球第一;2015 年在 NIST 组织的机器翻译大赛中,科大讯飞获得全球第一;在今年的 Winograd Schema Challenge 认知智能测试中,科大讯飞同样获得了第一。
发布会后,科大讯飞轮值总裁胡郁接受媒体专访
尽管行业和企业有如此多的进展,但前两次的「退潮」不禁让人担忧,第三次浪潮是否也将很快消失?在会后专访中,科大讯飞轮值总裁胡郁表示,「我不能预言退潮……但前两次退潮时人工智能都没能在行业中得到应用。」
三种状态和一个人机耦合的未来
在不同行业应用时,人工智能会有哪些不同特点?
科大讯飞研究院经过分析,将其分为三种主要的状态:
第一种是信息完全输入的状态。在这种状况下,得到一个输入就可以充分准确的得到相应的输出,如会议上的语音转写,安保时的人脸图像识别等,这些领域机器将来可以完全替代人工。
第二种是人机耦合的状态。仅仅有输入信息还不够,需要有经验判断和常识,以及不断迭代的专家知识。比如教育、医疗等领域,需要学习顶尖专家的知识并不断逼近他们。
第三种是完全依靠艺术创造的状态。没有输入信息支撑,主要靠创意、想象力。机器可以作图、画画、写诗,但是机器做出的还只是工艺品,真正的艺术还很难达到。
在演讲的同时,讯飞听见可以实时将语音转为文字,并同步翻译为英、韩、日、维等语言
「今天真正的机器替代了大量的传统脑力劳动,将人类解放到更加美好和广阔的创意空间中去,」科大讯飞董事长刘庆峰表示,「这是一个大的趋势。今天越来越多、可以说 80% 的人工智能技术,是集中在第二种状态的。」
人和机器是怎样的耦合模式?未来人工智能不仅仅是像大白这样的机器人,而是无所不在的后台,像水和电一样处处为人们服务。人工智能最开始也许只能做 10% 的服务,但是通过不断完成「他」做不了的事,3 个月后机器就可以通过学习可以做到 20%。三年他就能做到 80% 甚至 90%,这就是机器它后台的迭代学习。
在一个群体中也是这样的,机器先替代的是 10% 人群的工作,未来是 50%,他不断的学习这个群体然后到达 90%。「未来的世界应该是由顶尖专家和顶尖管理者,协同管理人和机器联合体的一个大的未来。这就是我们认为的人机协同机制,人类智慧大爆炸的时代正在到来。」
「人工智能是这个时代最伟大的魔法师」
在对人工智能浪潮的思考之后,科大讯飞轮值总裁胡郁具体介绍了科大讯飞将人工智能、特别是 AIUI 在七个领域的实际应用及进展。这七个领域分别是:声音、输入、交流、电视、教育、汽车、机器人。
输入方面,自 2010 年讯飞输入法发布以来,过去的 6 年时间已累积 4 亿用户,月活用户超 1 亿。通过讯飞输入法,手机输入速度可达到每分钟 400 字,正确率 97%。
交流方面,能够将语音实时转录成文字的讯飞听见系统,已实现响应速度小于 200 毫秒,离线准确率 95%。转换时可将角色分离,会议纪要类内容可即时成稿。在本次发布会上,还发布了一款名为讯飞便携翻译机的设备,可以实现中文、英文、维吾尔语即时互译;只需中文语音输入,便可即时得到英文语音输出,在现场的跨语言交流中展现出不俗的效果。
通过讯飞便携翻译机,即使不会英文也可以与外国友人即时交流
电视方面,AIUI 讯飞电视助理已经在该领域耕耘 5 年,据称其市场占有率大于 80%。其第三代超低功耗 BLE 芯片方案,为行业最具性价比的方案。现场演示中只需将遥控器当作麦克风,通过语音实现换台、跳播、查找资源、打开应用等功能,并具备上下文和自然语言理解能力。
汽车方面,科大讯飞已同包括 30 多家汽车厂商建立联系,100 多款车型正在使用其语音交互技术。在本次发布会上全新发布的基于 AIUI 的飞鱼助理,可以提供高度可靠的降噪拾音、随时唤醒自由对话、全双工随意打断、全场景深度交互。至于为什么叫「飞鱼」,胡郁表示「希望给客户提供水中游鱼一样的自由」。
发布会现场演示飞鱼助手,可用自然语言与其对话,执行导航、打电话等任务
机器人方面,目前已有 3000 家合作伙伴基于讯飞 AIUI 开发机器人,每日接听电话 200 万,节约 25% 人工坐席。本次发布会上发布的金融服务机器人「晓曼机器人」,可以在银行场景下的实现自然交互,精确识别用户、提供个性化服务、产品精准推荐及业务办理。该产品将于 2017 年 3 月首发。
晓曼机器人现场演示,可实现通过自然语言购买基金产品等功能
教育方面,通过人工智能+大数据,可以实现因材施教。目前通过科大讯飞的技术,可以为英文作文、中文作文自动打分,并将文章优缺点标注,其自动评分+智能批改,可提升 30% 教学效率;知识点分析+资源智能推送,可以将合适的微课推荐给合适的学生;精准定位+按需学习,可以基于语音检索识别视频讲解内容,自动切分教学环节按需精准学习,降低学生学习知识点所需要的时间。目前,科大讯飞的教育系统已经在 1 万所学校应用,影响超过 1500 万师生。
而在科大讯飞最擅长的声音方面,在专业配音工具软件配音阁,以及为产品提供定制语音的讯飞有声之外,本次发布会上还发布了「文字收音机」讯飞快听。用户可以选择老罗、奥巴马等音色朗读文字内容,输入任何文字都可即时收听。
科大讯飞轮值总裁胡郁的演讲结语
胡郁的结语未免有些动情。这位在专访中不愿预测 20 年后的未来、更相信多做点实事儿更重要的工学博士,期待着人工智能能为社会带来更多改变:
「我们的使命就是让机器能听会说,能理解会思考。用中国的核心技术,用一种爬山型的公司的精神,用板凳能坐十年冷的精神厚积薄发。结合中国现在的优势,抓住现在国际产业变革这千钧一发的机会和千载难逢的机遇。我们最后坚信,用我们的核心技术和我们的创业的热情,一定能够用人工智能,改变整个人类社会。」
©本文由机器之心原创,转载请联系本公众号获得授权。