十问科学家 | 关于语音交互,鄢志杰这么说-阿里云开发者社区

开发者社区> 王舒坦> 正文

十问科学家 | 关于语音交互,鄢志杰这么说

简介: 鄢志杰长期从事语音交互智能的研究、 产品化和商业化工作,在他看来,虽然现在语音 技术在持续进步,但是离解锁下一个关键场景还有很长的距离——技术发展的斜率还不 够陡峭。
+关注继续查看

鄢志杰 阿里巴巴达摩院语音实验室负责人

2003 年进入中科大语音实验室攻读博士时,鄢志杰已 经笃定彼时尚未成为主流的语音行业以后必成大势。 博士毕业后他进入微软亚洲研究院,曾任语音团队主 管研究员,2015 年加入阿里巴巴集团。同时,他还是 IEEE 高级会员,长期担任语音领域顶级学术会议及 期刊专家评审。

深耕语音行业十八年来,鄢志杰长期从事语音交互智 能的研究、产品化和商业化工作,在语音识别、语音 合成、语音交互等多个领域展开深入研究并成果斐然, 其研究成果被转化并应用于阿里巴巴集团、蚂蚁金服 及微软公司多项语音相关产品中。

Q1:你怎么向一个小学生去描述现在正在研究的 方向?

鄢志杰:我通常会用比喻的方式。其实 AI 很多研究方向,都是和人的感知相关。如果说计算机视觉对应的是眼睛,我做的就是耳 朵和嘴——耳朵是语音识别,把语音转成文字,嘴就是语音合成,把文字转 成语音。

Q2:这几年,智能语音交互领域还有没有让你很意外的应用场景?

鄢志杰:唯一有一个意外是,在我研究生阶段开始学这个技术的时候,没想 到今天在限定领域的语音交互的自然度,能够达到这么高的水平。比如说我 接到天猫超市打来的电话,说马上要配送了,问在不在家里,送到门口还是 送到物业?其实这都是 AI 打的电话,但很多人并没有感觉到不同。当然这 还只是在一个非常特定的领域,其他更广泛的领域里现在技术还做不到这么 自然的程度。

Q3:现在技术的限制主要是哪些?

鄢志杰:限制还是很多的。比如语音识别,还是停留在各种场景下更普适的 语音识别准确率。当年 IBM 的 Via Voice,要带一个耳麦讲话,现在手机可 以在稍远距离准确识别,智能音箱又可以做到更大距离。但这些的前提是, 在家里边不会有太多的噪声,而且这些场景都是单人的,都是跟机器去完成 一个单独的任务——要么是听写,要么是想点一首歌。但如果加了很多别的 因素,准确率就会逐渐下降,比如说噪音、口音、多人,甚至不是要完成一 个任务而是多人闲聊甚至争吵,还有语音之间的互相覆盖等等。

语音合成也一样,现在 AI 读一个句子、甚至一段话基本上可以以假乱真, 但是读一个篇章以后,例如小说,就会发现 AI 说话没有感情的起伏,是千 篇一律的。

Q4:这些技术的障碍,是什么层面的障碍?算法?还是硬件 ?

鄢志杰:我觉得都有。刚才说在一个真实环境下对人与人交流进行拾音就是 采集的问题,这些就很基础,甚至涉及麦克风本身,在这些信号采集之上的 信号处理、降噪增强算法问题也不少。

拾音后,如何处理多人同时讲话,比如两个人在争吵,怎么做到这种场景 下有效的语音分离,不仅辨识出说话的内容,还要识别出说话人的身份, 这些技术都是上层的,算法也会涉及。

Q5:好像现在整个语音交互停留在了一个平台期,当年从上一个平台期到 这个平台期,到底是哪些因素改变了?

鄢志杰:第一个因素是移动互联网,表面上看起来没有关系,其实关系很大。 因为移动互联网带来一个巨大的好处,就是获取合法合规的数据越来越容 易了。以前我们刚学技术的时候,积累语音素材要请人到录音棚里对着麦 克风录音,这样做的问题首先是不真实,因为是在录音棚,第二是覆盖的 人数很有限——能雇到几百人就很多了。

第二个因素是深度学习,除了算法以外,还有数据和算力。

然而,我觉得最终是应用的推动。今天用户能够通过手机、音箱去获得互 联网上的内容,有一些可以给 C 端用户用起来的东西,促进了技术的良性 循环发展。

Q6:深度学习出来之后的确是解锁了很多方法,提供了一个完全不一样的 思路,但是另外一方面,是不是也透支了很多过去的积累?

鄢志杰:这种担心很有必要。

上一个问题的回答里,或许还要加一个“开源”,这也是推动技术发展的 重要力量。开源带来一个问题,就是现在很多新一代研究者很容易通过开 源站到一定的高度上去,但这带来的也许是个副作用——当初应该练的那 些“童子功”可能就直接跳过了,研究者有可能不知道那个东西是怎么来 的了。

其实任何一个算法应用都有一个核心(Core),但现在少有人去做了,大家都在上面去不停地去包装——少有人去做巨人,但大家都愿意站在巨人 的肩膀上。

还有一些老的研究方向,也许它的理论有更漂亮的地方,但是因为在现阶 段确实不如神经网络的这一套理论流行、应用效果更好,可能就会被慢慢 遗忘,“武林秘籍”可能就失传了。我不确定最终结果会怎么样,但回看 过去,在深度学习火起来之前,神经网络的研究也经历过类似阶段,那个 时候是别的统计建模框架明显好于神经网络,那个时候写神经网络的论文 不少都会被拒。

Q7:过去几年你觉得智能语音领域发生的最了不起的进步是什么?

鄢志杰:深度学习就是最了不起的进步。如果从 2010 年左右语音和深度学 习结合的那一波技术爆发开始看,最近几年可能算是平台期,但严格地说, 从技术上讲,过去的十年是少有的、持续进步的十年。

以前技术都是阶跃性的进步,或者叫脉冲式的进步,差不多一个脉冲以后 又要沉寂 10 年左右的时间。但近 10 年来确实是持续在进步的,虽然都在 深度学习的大框架下,但是基本上两三年会有一个大的模型升级。

现在的平台期我会把它形容为:虽然技术发展持续上升了 10 年,但是离我 们解锁下一个关键场景还有很长的距离。也就是说,技术发展的斜率还不够陡峭。

Q8:你在阿里巴巴的工作状态是什么样的?偏研究还是偏落地?

鄢志杰:严格地说,我是在探索高技术如何产生高价值的路径。

世界上有很多是单纯的高价值的事情,比如有人开玩笑说小龙虾产业的规 模曾经很长一段时间都是超过云计算的。同样,世界上也有很多纯的高技术, 包括很多基础性的技术,例如数学研究。

我认为达摩院的定位是要找到同时满足这两个条件的事情,这是第一个难点。

第二个难点是在一个中国的高科技公司做这件事情,这是一种绝无仅有的 体验。达摩院跟传统意义上西方高科技公司做研究院不一样,跟政府资助 的大学和科研院所又不一样,所有这些事情是没有人干过的。

Q9:到目前为止,这个体系进展如何?哪些地方比较满意,哪些地方问题 还比较大?

鄢志杰:满意的地方,我觉得是在语音品类上。通过我们自己做研究,再做 内部的应用来构建完善这些技术,然后再把这些技术变成产品放到阿里云 上,对外输出给别的行业。我把这部分叫做“中场”,这是比较满意的部分。

为什么叫“中场”,这是我的一个“前中后场”的理论,与足球有关。

足球有个最大的特点:射门 10 次可能只进一次,这是和篮球很大的不同。 这就像极了真正探索性的研究,就是说可能要承受 90% 的失败,然后有一 次能够成功。我就把它比喻为“前场”,真正的探索式的创新出现在前场, 通过不断保持冲击,孕育好多颗种子,最终少数一些种子能够长出来。

而“中场”就是保持这样的冲击力的基础,创新不可能突然出现,孕育种 子就得有土壤。最简单的例子是,当我有一个创新想法的时候,到底是三 缺一的去干,还是一缺三的去干,这是个很重要的问题。

当一缺三的时候,基本上这个创新很难有效的发生;而三缺一的时候,项 目就有点希望,这里“三”就来源于中场的积累,比如今天我们要去做一 个产品,发现要用到语音的某一个技术、视觉的某一个技术,而达摩院在“中 场”已经有很成熟的一些积累,马上就可以为我所用,这个时候就能站在 他们的肩膀上做相应的事情。

“后场”就是真正的发动机,在达摩院里就是比较偏纯研究的团队,研究 的探索性风险极高,“中场”也要保护“后场”,使“后场”能有一个稳 定良好的环境去长期投入研究。

我现在精力主要投入在“如何让大家有效地形成一个体系”这件事上,研 究反而变成兴趣了,但我依然特别享受跟“后场”的同学在一起讨论的时间。

Q10:这个分类很创新,那对中场这些人的要求是什么?

鄢志杰:举个例子来说,AI 平台类的东西,主要就是由“中场”的人来做的, 它本质上就是把 AI 的能力变成所有人可以“开箱即用”的一种能力,然后 帮助别人去做他们的事情。比如,有人就拿着达摩院人脸识别的技术去做 考勤机,有人拿着达摩院语音的技术去做客服系统等等。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
6328 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
2155 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
3951 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
4962 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
5663 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
10711 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
3795 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
16265 0
+关注
14
文章
2
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载