「一夜爆红」之后，科大讯飞交出了这份年度答卷-阿里云开发者社区

「一夜爆红」之后，科大讯飞交出了这份年度答卷

2021-11-27 136

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在第三次人工智能浪潮来临之时，在语音领域耕耘了 17 年的这家公司走到了哪一步？

「人工智能第三次浪潮究竟是什么？第三次浪潮是不是也像前两次一样很快大潮退去？今天我们对人工智能未来的预测是不是过于乐观？这是一个真正的产业大潮还是概念的泡沫？」

科大讯飞董事长刘庆峰在发布会上做开篇演讲

在昨日（11 月 23 日）的讯飞 2016 年度大会上，科大讯飞董事长刘庆峰开篇便提出了以上这些疑问。

其背后是这家在语音行业耕耘 17 年、并不断拓展应用领域、并在锤子发布会后「一夜爆红」的公司，对人工智能行业的思考和落地。

第三次浪潮？

1956 年，人工智能的概念第一次在达特茅斯会议上提出。

1970 年，人工智能迎来第一次浪潮。第一代神经网络算法，可以证明《数学原理》中绝大多数数学原理。

1984 年，人工智能迎来第二次浪潮。霍普菲尔德（Hopfield）网络的出现，让神经网络拥有记忆功能。

「但前两次大潮后来都破灭了，为什么？因为神经网络本身算法的局限性，也受当时整个运算能力的局限。今天，神经网络有了全新进展，深度神经网络成为基础，基于大数据、云计算的运算平台，源源不断地将基于移动互联网的训练数据输送到后台，」科大讯飞董事长刘庆峰在主题演讲中表示，「我们认为人工智能的第三次大潮已经切实到来。人工智能已不再是一个概念，是可以进入一个又一个的行业的。」

2006 年，当年参与达特茅斯会议的专家重聚，左起为摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫。

纵观十年来人工智能行业的进展，似乎一直在为第三次浪潮的到来铺垫：2006 年，Geoffrey Hinton 提出深度学习框架；2010 年，DNN 在语音识别崭露头角；2012 年，CNN 在图像识别领域异军突起；2014 年，RNN 机器翻译中得到应用；2016 年，AlphaGo「战胜」李世石。

得益于互联网、移动互联网的高速发展，深度学习、神经网络等技术获得了海量训练数据。受益于此，科大讯飞也取得了不少瞩目成绩。在今年的全球语音合成大赛 Blizzard Challenge（暴风雪竞赛）中，科大讯飞再次获得全球第一；在今年的 CHiME 国际语音识别大赛中，科大讯飞三项指标均为全球第一；2015 年在 NIST 组织的机器翻译大赛中，科大讯飞获得全球第一；在今年的 Winograd Schema Challenge 认知智能测试中，科大讯飞同样获得了第一。

发布会后，科大讯飞轮值总裁胡郁接受媒体专访

尽管行业和企业有如此多的进展，但前两次的「退潮」不禁让人担忧，第三次浪潮是否也将很快消失？在会后专访中，科大讯飞轮值总裁胡郁表示，「我不能预言退潮……但前两次退潮时人工智能都没能在行业中得到应用。」

三种状态和一个人机耦合的未来

在不同行业应用时，人工智能会有哪些不同特点？

科大讯飞研究院经过分析，将其分为三种主要的状态：

第一种是信息完全输入的状态。在这种状况下，得到一个输入就可以充分准确的得到相应的输出，如会议上的语音转写，安保时的人脸图像识别等，这些领域机器将来可以完全替代人工。

第二种是人机耦合的状态。仅仅有输入信息还不够，需要有经验判断和常识，以及不断迭代的专家知识。比如教育、医疗等领域，需要学习顶尖专家的知识并不断逼近他们。

第三种是完全依靠艺术创造的状态。没有输入信息支撑，主要靠创意、想象力。机器可以作图、画画、写诗，但是机器做出的还只是工艺品，真正的艺术还很难达到。

在演讲的同时，讯飞听见可以实时将语音转为文字，并同步翻译为英、韩、日、维等语言

「今天真正的机器替代了大量的传统脑力劳动，将人类解放到更加美好和广阔的创意空间中去，」科大讯飞董事长刘庆峰表示，「这是一个大的趋势。今天越来越多、可以说 80% 的人工智能技术，是集中在第二种状态的。」

人和机器是怎样的耦合模式？未来人工智能不仅仅是像大白这样的机器人，而是无所不在的后台，像水和电一样处处为人们服务。人工智能最开始也许只能做 10% 的服务，但是通过不断完成「他」做不了的事，3 个月后机器就可以通过学习可以做到 20%。三年他就能做到 80% 甚至 90%，这就是机器它后台的迭代学习。

在一个群体中也是这样的，机器先替代的是 10% 人群的工作，未来是 50%，他不断的学习这个群体然后到达 90%。「未来的世界应该是由顶尖专家和顶尖管理者，协同管理人和机器联合体的一个大的未来。这就是我们认为的人机协同机制，人类智慧大爆炸的时代正在到来。」

「人工智能是这个时代最伟大的魔法师」

在对人工智能浪潮的思考之后，科大讯飞轮值总裁胡郁具体介绍了科大讯飞将人工智能、特别是 AIUI 在七个领域的实际应用及进展。这七个领域分别是：声音、输入、交流、电视、教育、汽车、机器人。

输入方面，自 2010 年讯飞输入法发布以来，过去的 6 年时间已累积 4 亿用户，月活用户超 1 亿。通过讯飞输入法，手机输入速度可达到每分钟 400 字，正确率 97%。

交流方面，能够将语音实时转录成文字的讯飞听见系统，已实现响应速度小于 200 毫秒，离线准确率 95%。转换时可将角色分离，会议纪要类内容可即时成稿。在本次发布会上，还发布了一款名为讯飞便携翻译机的设备，可以实现中文、英文、维吾尔语即时互译；只需中文语音输入，便可即时得到英文语音输出，在现场的跨语言交流中展现出不俗的效果。

通过讯飞便携翻译机，即使不会英文也可以与外国友人即时交流

电视方面，AIUI 讯飞电视助理已经在该领域耕耘 5 年，据称其市场占有率大于 80%。其第三代超低功耗 BLE 芯片方案，为行业最具性价比的方案。现场演示中只需将遥控器当作麦克风，通过语音实现换台、跳播、查找资源、打开应用等功能，并具备上下文和自然语言理解能力。

汽车方面，科大讯飞已同包括 30 多家汽车厂商建立联系，100 多款车型正在使用其语音交互技术。在本次发布会上全新发布的基于 AIUI 的飞鱼助理，可以提供高度可靠的降噪拾音、随时唤醒自由对话、全双工随意打断、全场景深度交互。至于为什么叫「飞鱼」，胡郁表示「希望给客户提供水中游鱼一样的自由」。

发布会现场演示飞鱼助手，可用自然语言与其对话，执行导航、打电话等任务

机器人方面，目前已有 3000 家合作伙伴基于讯飞 AIUI 开发机器人，每日接听电话 200 万，节约 25% 人工坐席。本次发布会上发布的金融服务机器人「晓曼机器人」，可以在银行场景下的实现自然交互，精确识别用户、提供个性化服务、产品精准推荐及业务办理。该产品将于 2017 年 3 月首发。

晓曼机器人现场演示，可实现通过自然语言购买基金产品等功能

教育方面，通过人工智能＋大数据，可以实现因材施教。目前通过科大讯飞的技术，可以为英文作文、中文作文自动打分，并将文章优缺点标注，其自动评分＋智能批改，可提升 30% 教学效率；知识点分析＋资源智能推送，可以将合适的微课推荐给合适的学生；精准定位＋按需学习，可以基于语音检索识别视频讲解内容，自动切分教学环节按需精准学习，降低学生学习知识点所需要的时间。目前，科大讯飞的教育系统已经在 1 万所学校应用，影响超过 1500 万师生。

而在科大讯飞最擅长的声音方面，在专业配音工具软件配音阁，以及为产品提供定制语音的讯飞有声之外，本次发布会上还发布了「文字收音机」讯飞快听。用户可以选择老罗、奥巴马等音色朗读文字内容，输入任何文字都可即时收听。

科大讯飞轮值总裁胡郁的演讲结语

胡郁的结语未免有些动情。这位在专访中不愿预测 20 年后的未来、更相信多做点实事儿更重要的工学博士，期待着人工智能能为社会带来更多改变：

「我们的使命就是让机器能听会说，能理解会思考。用中国的核心技术，用一种爬山型的公司的精神，用板凳能坐十年冷的精神厚积薄发。结合中国现在的优势，抓住现在国际产业变革这千钧一发的机会和千载难逢的机遇。我们最后坚信，用我们的核心技术和我们的创业的热情，一定能够用人工智能，改变整个人类社会。」

「一夜爆红」之后，科大讯飞交出了这份年度答卷

热门文章

最新文章

相关课程

相关电子书

相关实验场景