「一夜爆红」之后,科大讯飞交出了这份年度答卷

简介: 在第三次人工智能浪潮来临之时,在语音领域耕耘了 17 年的这家公司走到了哪一步?

「人工智能第三次浪潮究竟是什么?第三次浪潮是不是也像前两次一样很快大潮退去?今天我们对人工智能未来的预测是不是过于乐观?这是一个真正的产业大潮还是概念的泡沫?」


72E5E9A8-ACA8-42DA-B736-CCBE3CB63E85.jpeg

科大讯飞董事长刘庆峰在发布会上做开篇演讲


在昨日(11 月 23 日)的讯飞 2016 年度大会上,科大讯飞董事长刘庆峰开篇便提出了以上这些疑问。


其背后是这家在语音行业耕耘 17 年、并不断拓展应用领域、并在锤子发布会后「一夜爆红」的公司,对人工智能行业的思考和落地。


第三次浪潮?


1956 年,人工智能的概念第一次在达特茅斯会议上提出。


1970 年,人工智能迎来第一次浪潮。第一代神经网络算法,可以证明《数学原理》中绝大多数数学原理。


1984 年,人工智能迎来第二次浪潮。霍普菲尔德(Hopfield)网络的出现,让神经网络拥有记忆功能。


「但前两次大潮后来都破灭了,为什么?因为神经网络本身算法的局限性,也受当时整个运算能力的局限。今天,神经网络有了全新进展,深度神经网络成为基础,基于大数据、云计算的运算平台,源源不断地将基于移动互联网的训练数据输送到后台,」科大讯飞董事长刘庆峰在主题演讲中表示,「我们认为人工智能的第三次大潮已经切实到来。人工智能已不再是一个概念,是可以进入一个又一个的行业的。」


CDA80F98-12A1-4ED8-8C06-3D7FD95A17BB.jpeg

2006 年,当年参与达特茅斯会议的专家重聚,左起为摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫。


纵观十年来人工智能行业的进展,似乎一直在为第三次浪潮的到来铺垫:2006 年,Geoffrey Hinton 提出深度学习框架;2010 年,DNN 在语音识别崭露头角;2012 年,CNN 在图像识别领域异军突起;2014 年,RNN 机器翻译中得到应用;2016 年,AlphaGo「战胜」李世石。


得益于互联网、移动互联网的高速发展,深度学习、神经网络等技术获得了海量训练数据。受益于此,科大讯飞也取得了不少瞩目成绩。在今年的全球语音合成大赛 Blizzard Challenge(暴风雪竞赛)中,科大讯飞再次获得全球第一;在今年的 CHiME 国际语音识别大赛中,科大讯飞三项指标均为全球第一;2015 年在 NIST 组织的机器翻译大赛中,科大讯飞获得全球第一;在今年的 Winograd Schema Challenge 认知智能测试中,科大讯飞同样获得了第一。


B205C887-2A7D-44B9-9FE2-85DFFCD371F0.jpeg

发布会后,科大讯飞轮值总裁胡郁接受媒体专访


尽管行业和企业有如此多的进展,但前两次的「退潮」不禁让人担忧,第三次浪潮是否也将很快消失?在会后专访中,科大讯飞轮值总裁胡郁表示,「我不能预言退潮……但前两次退潮时人工智能都没能在行业中得到应用。」


三种状态和一个人机耦合的未来


在不同行业应用时,人工智能会有哪些不同特点?


科大讯飞研究院经过分析,将其分为三种主要的状态:


第一种是信息完全输入的状态。在这种状况下,得到一个输入就可以充分准确的得到相应的输出,如会议上的语音转写,安保时的人脸图像识别等,这些领域机器将来可以完全替代人工。


第二种是人机耦合的状态。仅仅有输入信息还不够,需要有经验判断和常识,以及不断迭代的专家知识。比如教育、医疗等领域,需要学习顶尖专家的知识并不断逼近他们。


第三种是完全依靠艺术创造的状态。没有输入信息支撑,主要靠创意、想象力。机器可以作图、画画、写诗,但是机器做出的还只是工艺品,真正的艺术还很难达到。


119FCB53-4180-4D21-9E4A-43170FD8B6A5.jpeg

在演讲的同时,讯飞听见可以实时将语音转为文字,并同步翻译为英、韩、日、维等语言


「今天真正的机器替代了大量的传统脑力劳动,将人类解放到更加美好和广阔的创意空间中去,」科大讯飞董事长刘庆峰表示,「这是一个大的趋势。今天越来越多、可以说 80% 的人工智能技术,是集中在第二种状态的。」


人和机器是怎样的耦合模式?未来人工智能不仅仅是像大白这样的机器人,而是无所不在的后台,像水和电一样处处为人们服务。人工智能最开始也许只能做 10% 的服务,但是通过不断完成「他」做不了的事,3 个月后机器就可以通过学习可以做到 20%。三年他就能做到 80% 甚至 90%,这就是机器它后台的迭代学习。


在一个群体中也是这样的,机器先替代的是 10% 人群的工作,未来是 50%,他不断的学习这个群体然后到达 90%。「未来的世界应该是由顶尖专家和顶尖管理者,协同管理人和机器联合体的一个大的未来。这就是我们认为的人机协同机制,人类智慧大爆炸的时代正在到来。」


「人工智能是这个时代最伟大的魔法师」


在对人工智能浪潮的思考之后,科大讯飞轮值总裁胡郁具体介绍了科大讯飞将人工智能、特别是 AIUI 在七个领域的实际应用及进展。这七个领域分别是:声音、输入、交流、电视、教育、汽车、机器人。


输入方面,自 2010 年讯飞输入法发布以来,过去的 6 年时间已累积 4 亿用户,月活用户超 1 亿。通过讯飞输入法,手机输入速度可达到每分钟 400 字,正确率 97%。


交流方面,能够将语音实时转录成文字的讯飞听见系统,已实现响应速度小于 200 毫秒,离线准确率 95%。转换时可将角色分离,会议纪要类内容可即时成稿。在本次发布会上,还发布了一款名为讯飞便携翻译机的设备,可以实现中文、英文、维吾尔语即时互译;只需中文语音输入,便可即时得到英文语音输出,在现场的跨语言交流中展现出不俗的效果。


D0B4AAB1-CCE9-48DC-9E8A-1E768D42ABB5.jpeg

通过讯飞便携翻译机,即使不会英文也可以与外国友人即时交流


电视方面,AIUI 讯飞电视助理已经在该领域耕耘 5 年,据称其市场占有率大于 80%。其第三代超低功耗 BLE 芯片方案,为行业最具性价比的方案。现场演示中只需将遥控器当作麦克风,通过语音实现换台、跳播、查找资源、打开应用等功能,并具备上下文和自然语言理解能力。


汽车方面,科大讯飞已同包括 30 多家汽车厂商建立联系,100 多款车型正在使用其语音交互技术。在本次发布会上全新发布的基于 AIUI 的飞鱼助理,可以提供高度可靠的降噪拾音、随时唤醒自由对话、全双工随意打断、全场景深度交互。至于为什么叫「飞鱼」,胡郁表示「希望给客户提供水中游鱼一样的自由」。


6D47A19E-7E46-4C22-8920-96C7D60F6975.jpeg

发布会现场演示飞鱼助手,可用自然语言与其对话,执行导航、打电话等任务


机器人方面,目前已有 3000 家合作伙伴基于讯飞 AIUI 开发机器人,每日接听电话 200 万,节约 25% 人工坐席。本次发布会上发布的金融服务机器人「晓曼机器人」,可以在银行场景下的实现自然交互,精确识别用户、提供个性化服务、产品精准推荐及业务办理。该产品将于 2017 年 3 月首发。


C3B168BD-4586-42ED-9D0F-920E5878A91A.jpeg

晓曼机器人现场演示,可实现通过自然语言购买基金产品等功能


教育方面,通过人工智能+大数据,可以实现因材施教。目前通过科大讯飞的技术,可以为英文作文、中文作文自动打分,并将文章优缺点标注,其自动评分+智能批改,可提升 30% 教学效率;知识点分析+资源智能推送,可以将合适的微课推荐给合适的学生;精准定位+按需学习,可以基于语音检索识别视频讲解内容,自动切分教学环节按需精准学习,降低学生学习知识点所需要的时间。目前,科大讯飞的教育系统已经在 1 万所学校应用,影响超过 1500 万师生。


而在科大讯飞最擅长的声音方面,在专业配音工具软件配音阁,以及为产品提供定制语音的讯飞有声之外,本次发布会上还发布了「文字收音机」讯飞快听。用户可以选择老罗、奥巴马等音色朗读文字内容,输入任何文字都可即时收听。


BCCA85F1-A919-42E9-AAA3-9D969FE77F57.jpeg

科大讯飞轮值总裁胡郁的演讲结语


胡郁的结语未免有些动情。这位在专访中不愿预测 20 年后的未来、更相信多做点实事儿更重要的工学博士,期待着人工智能能为社会带来更多改变:


「我们的使命就是让机器能听会说,能理解会思考。用中国的核心技术,用一种爬山型的公司的精神,用板凳能坐十年冷的精神厚积薄发。结合中国现在的优势,抓住现在国际产业变革这千钧一发的机会和千载难逢的机遇。我们最后坚信,用我们的核心技术和我们的创业的热情,一定能够用人工智能,改变整个人类社会。」



©本文由机器之心原创,转载请联系本公众号获得授权

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
玉伯今晚和你聊聊:2022 上半年的 6 个重要认知
玉伯今晚和你聊聊:2022 上半年的 6 个重要认知
163 0
|
安全 程序员 人机交互
黑客马拉松赛:代驾神器胜出,夺走 4 万大奖
11月3日,杭州国际马拉松赛的比赛日。在余杭的秀山美地,一场长达50小时的“黑客马拉松赛”也在这一天落下帷幕,最终由一名“女汉子”担任策划的X 代驾项目胜出,拿走了4万元奖金。这次“黑客马拉松赛”的组织者个推 CEO方毅表示,主要是想通过组织这样一个比赛,鼓励大家把新想法、新技术付诸实施, 让创新在杭州的互联网企业里扎根发芽。
123 0
黑客马拉松赛:代驾神器胜出,夺走 4 万大奖
|
安全 区块链
史上最执着的“杠精”!一个作家,一个记者,一场横跨25年的赌局,现在到期了
史上最执着的“杠精”!一个作家,一个记者,一场横跨25年的赌局,现在到期了
179 0
|
弹性计算 云计算
当九年义务教育的精英,遇上十年寒窗苦读的翘楚,必将擦出耀眼的火花!
这一组古今搭档,因为语言差异,总是能逗的人捧腹大笑,这不,美好的一天又开始了~
当九年义务教育的精英,遇上十年寒窗苦读的翘楚,必将擦出耀眼的火花!
|
传感器 数据采集 监控
机器狗的烦恼:网红练习生容易,商业实习生好难
好比临近毕业正在找工作的实习生,波士顿动力的产品具备了基础理论知识,还缺少实践经验。
08年奥运会的开幕式很【强势】——管你看懂看不懂,这是中华民族的文化和历史!
     看了开幕式,又看了一些相关的报到,还有大家的评论。我的感觉就是很强势。        画卷、画轴、宣纸、文字、水墨画、丝绸之路、航海、孔孟之道、戏曲等等,这些都是中华民族的文化和历史!管你老外看懂看不懂呢?!看不懂的话,回家不补课去:)        至于点火嘛,看了一些视频后才知道,原来的方案里面是要有一个虚幻的凤凰来点火的,但是由于技术原因而未能实现。
820 0
二手交易市场将慢慢落幕还是繁华?
  提到二手交易,首先跳出我脑海的是前段时间极具洗脑功效的一段视频——“上上上上,上优信二手车”,虽说此视频为被恶搞后的杰作,但优信二手车却是被深深的记了下来,因而我也记住了二手车交易,但二手交易并不仅限于二手车。
1265 0
|
Java C++
做决定,怎能让“自己”缺席
【来信】   贺老师,您好,我在一次有目的的搜索中发现了您给大二软件工程学生解答的问题。仔细阅读后,决定写信给您。
1363 0