数智洞察丨当AI拥有“一双慧耳”和“巧舌”-阿里云开发者社区

数智洞察丨当AI拥有“一双慧耳”和“巧舌”

2023-05-13 156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 编者按：人工智能技术快速发展，也改变了我们与机器互动的方式。智能语音等应用既加速了产品体验升级，也迎来了非常好的发展和极大的市场空间。中国的智能语音市场规模保持着稳步扩张的态势，成为未来发展的必然趋势。

导语

鄢志杰长期从事语音交互智能的研究、产品化和商业化工作，在他看来，虽然现在语音技术在持续进步，但是离解锁下一个关键场景还有很长的距离——技术发展的斜率还不够陡峭。2003 年进入中科大语音实验室攻读博士时，鄢志杰已经笃定彼时尚未成为主流的语音行业以后必成大势。博士毕业后他进入微软亚洲研究院，曾任语音团队主管研究员，2015年加入阿里巴巴集团。同时，他还是IEEE高级会员，长期担任语音领域顶级学术会议及期刊专家评审。

深耕语音行业十八年来，鄢志杰长期从事语音交互智能的研究、产品化和商业化工作，在语音识别、语音合成、语音交互等多个领域展开深入研究并成果斐然，其研究成果被转化并应用于阿里巴巴集团、蚂蚁金服及微软公司多项语音相关产品中。

语音交互的定义

鄢志杰通常会用比喻的方式：其实AI很多研究方向，都是和人的感知相关。如果说计算机视觉对应的是眼睛，他做的就是耳朵和嘴——耳朵是语音识别，把语音转成文字，嘴就是语音合成，把文字转成语音。

鄢志杰回忆起一个令他意外的应用场景，在他研究生阶段开始学这个技术的时候，没想到今天在限定领域的语音交互的自然度，能够达到这么高的水平。比如说用户会接到天猫超市打来的电话，说马上要配送了，问在不在家里，送到门口还是送到物业?其实这都是 AI 打的电话，但很多人并没有感觉到不同。当然这还只是在一个非常特定的领域，其他更广泛的领域里现在技术还做不到这么自然的程度。

技术的限制与障碍

语音交互领域目前还存在很多技术的限制，比如在语音识别方面，还是停留在各种场景下更普适的语音识别准确率。当年IBM 的ViaVoice，要带一个耳麦讲话，现在手机可以在稍远距离准确识别，智能音箱又可以做到更大距离。但这些的前提是，在家里边不会有太多的噪声，而且这些场景都是单人的，都是跟机器去完成一个单独的任务——要么是听写，要么是想点一首歌。但如果加了很多别的因素，准确率就会逐渐下降，比如说噪音、口音、多人，甚至不是要完成一个任务而是多人闲聊甚至争吵，还有语音之间的互相覆盖等等。

语音合成也一样，现在AI读一个句子、甚至一段话基本上可以以假乱真，但是读一个篇章以后，例如小说，就会发现AI说话没有感情的起伏，是千篇一律的。

鄢志杰认为对于技术的障碍既包含算法层面也包含硬件层面。前文提到在一个真实环境下对人与人交流进行拾音就是采集的问题，这些就很基础，甚至涉及麦克风本身，在这些信号采集之上的信号处理、降噪增强算法问题也不少。

拾音后，如何处理多人同时讲话，比如两个人在争吵，怎么做到这种场景下有效的语音分离，不仅辨识出说话的内容，还要识别出说话人的身份，这些技术都是上层的，算法也会涉及。

如何跨越平台期

第一个因素是移动互联网，表面上看起来没有关系，其实关系很大。因为移动互联网带来一个巨大的好处，就是获取合法合规的数据越来越容易。在鄢志杰刚学技术的时候，积累语音素材要请人到录音棚里对着麦克风录音，这样做的问题首先是不真实，因为是在录音棚，第二是覆盖的人数很有限——能雇到几百人就很多了。

第二个因素是深度学习，除了算法以外，还有数据和算力。鄢志杰觉得最终是应用的推动。今天用户能够通过手机、音箱去获得互联网上的内容，有一些可以给C端用户用起来的东西，促进了技术的良性循环发展。

第三个是“开源”，这也是推动技术发展的重要力量。开源带来一个问题，就是现在很多新一代研究者很容易通过开源站到一定的高度上去，但这带来的也许是个副作用——当初应该练的那些“童子功”可能就直接跳过了，研究者有可能不知道那个东西是怎么来的。

其实任何一个算法应用都有一个核心(Core)，但现在少有人去做了，大家都在上面去不停地去包装——少有人去做巨人，但大家都愿意站在巨人的肩膀上。

还有一些老的研究方向，也许它的理论有更漂亮的地方，但是因为在现阶段确实不如神经网络的这一套理论流行、应用效果更好，可能就会被慢慢遗忘，“武林秘籍”可能就失传了。虽然不确定最终结果会怎么样，但回看过去，在深度学习火起来之前，神经网络的研究也经历过类似阶段，那个时候是其他的统计建模框架明显好于神经网络，那个时候写神经网络的论文不少都会被拒。

智能语音领域的进步

鄢志杰认为深度学习就是最了不起的进步。如果从2010年左右语音和深度学习结合的那一波技术爆发开始看，最近几年可能算是平台期，但严格地说，从技术上讲，过去的十年是少有的、持续进步的十年。

以前技术都是阶跃性的进步，或者叫脉冲式的进步，差不多一个脉冲以后又要沉寂10年左右的时间。但近10年来确实是持续在进步的，虽然都在深度学习的大框架下，但是基本上两三年会有一个大的模型升级。

现在的平台期被鄢志杰形容为:虽然技术发展持续上升了10年，但是离我们解锁下一个关键场景还有很长的距离。也就是说，技术发展的斜率还不够陡峭。

如何定义在阿里巴巴的工作状态

鄢志杰表示自己是在探索高技术如何产生高价值的路径。世界上有很多是单纯的高价值的事情，比如有人开玩笑说小龙虾产业的规模曾经很长一段时间都是超过云计算的。同样，世界上也有很多纯的高技术，包括很多基础性的技术，例如数学研究。

鄢志杰认为达摩院的定位是要找到同时满足这两个条件的事情，这是第一个难点。第二个难点是在一个中国的高科技公司做这件事情，这是一种绝无仅有的体验。达摩院跟传统意义上西方高科技公司做研究院不一样，跟政府资助的大学和科研院所又不一样，所有这些事情是没有人干过的。

达摩院体系评价

鄢志杰比较满意的地方是在语音品类上。通过自己做研究，再做内部的应用来构建完善这些技术，然后再把这些技术变成产品放到阿里云上，对外输出给别的行业。鄢志杰将这部分叫做“中场”，也是他比较满意的部分。

为什么叫“中场”，这是鄢志杰的一个“前中后场”的理论，与足球有关。足球有个最大的特点:射门10次可能只进一次，这是和篮球很大的不同。这就像极了真正探索性的研究，就是说可能要承受90%的失败，然后有一次能够成功。这被比喻为“前场”，真正的探索式的创新出现在前场，通过不断保持冲击，孕育好多颗种子，最终少数一些种子能够长出来。

而“中场”就是保持这样的冲击力的基础，创新不可能突然出现，孕育种子就得有土壤。最简单的例子是，当有一个创新想法的时候，到底是三缺一的去干，还是一缺三的去干，这是个很重要的问题。

当一缺三的时候，基本上这个创新很难有效的发生;而三缺一的时候，项目就有点希望，这里“三”就来源于中场的积累，比如今天我们要去做一个产品，发现要用到语音的某一个技术、视觉的某一个技术，而达摩院在“中场”已经有很成熟的一些积累，马上就可以为我所用，这个时候就能站在他们的肩膀上做相应的事情。

“后场”就是真正的发动机，在达摩院里就是比较偏纯研究的团队，研究的探索性风险极高，“中场”也要保护“后场”，使“后场”能有一个稳定良好的环境去长期投入研究。而对于“中场”的人的要求，鄢志杰举例道：AI平台类的东西，主要就是由“中场”的人来做的，它本质上就是把AI的能力变成所有人可以“开箱即用”的一种能力，然后帮助别人去做他们的事情。比如，有人就拿着达摩院人脸识别的技术去做考勤机，有人拿着达摩院语音的技术去做客服系统等等。

鄢志杰现在精力主要投入在“如何让大家有效地形成一个体系”这件事上，研究反而变成兴趣了，但他依然特别享受跟“后场”的同学在一起讨论的时间。

作者：《云栖战略参考》第二期

编辑：阿里云研究院内容运营主管赵子千

文章部分图片资源来源于网络

如有版权问题请联系编辑删除

数智洞察丨当AI拥有“一双慧耳”和“巧舌”

阿里云研究院CXO运营中心

热门文章

最新文章

相关课程

相关电子书

相关实验场景