近期,权威调研机构IDC发布了《中国AI云服务市场半年度研究报告》,就国内主要云厂商的云上AI服务进行了调研,包括人脸人体、图像视频、智能语音(ASR&TTS)、对话式AI、NLP、机器学习6大类别。其中,阿里AI在智能语音、对话式AI、机器学习三大领域,获得6个维度的第一,并以44%、57%、29%的市占率位列三大领域市场份额第一,领跑同类云服务厂商。
作为较早布局云上语音AI技术的企业,阿里巴巴通过阿里云对外提供语音原子能力、行业模型及自学习平台等服务,给用户「开箱即用」的行业语音解决方案。此外还推出语音识别、图像识别、自然语言处理等多领域上百款细分AI产品。在达摩院的助力下,阿里云解决了AI研发的算法/算力瓶颈,加速了AI应用落地的进程。目前,阿里云语音已拥有5万多家客户,包括中移动、中央电视台、招商银行、字节跳动等,覆盖教育、金融、出行等数十个场景。
在IT基础设施全面上云的大潮下,AI产业结构正在发生巨大的改变。由于传统AI服务成本高、周期长、个性化能力弱等特点,云上获取AI服务逐渐成为了企业的首选。云+AI成为了加速AI技术大规模落地的重要推手,也成为了AI语音产业的新入场券。
那么,基于云的语音服务是如何发展的?云上语音与传统的语音服务有哪些差异?你该如何玩转云+语音?我们带着这些问题,采访了达摩院语音实验室负责人鄢志杰。
1“云必然会成为语音产业的新入场券”
鄢志杰在语音技术的研究经历可谓「根正苗红」,毕业于中国科学技术大学语音实验室,专注于音识别、语音合成、语音交互、说话人识别验证等领域的研究。毕业后在微软亚洲研究院继续语音方面的研究,之后加入了阿里,担任达摩院语音实验室负责人。正是在阿里的这段工作经历,让本来深耕于AI领域的他,看到了云与AI结合的前景。他认为:“云的出现,让诞生了60多年的语音技术从少数人掌握的高端工具,变成了人人可用的平民技术,云成为了语音产业的新入场券。”
纵观语音技术的发展,可以看出这样一个趋势,即对细分场景的不断「解锁」。从最开始戴着耳麦去做简单的语音识别,到通过命令去检索一些简单的信息(如某家公司的股价),再到后面以Siri为代表的手机语音助手,到现在以智能音箱为代表的各种智能硬件设备。语音已成为了智能设备中的标准化交互入口,放眼未来万物都可能通过语音来进行交互。
传统的语音技术往往掌握在两类公司手里,一类是以操作系统起家的巨头,如微软。这类公司往往是从满足自己操作系统对于残障人士的支持为目的,加入了语音输入的功能;第二类则是专业的语音技术厂商,如Nuance。这类公司的定位则是为其他大公司提供语音服务(这类公司很容易被这些大公司自己的语音技术部门所取代)。
这两类厂商所提供的语音服务也大都是「标准化」的服务。由于行业的差异,用户所需要的服务也千差万别,一套「标准化」的服务很难满足不同行业的需求。例如,同样是客服呼叫中心,所面临的客户群体、对话内容、专业术语等截然不同。而为用户提供个性化语音服务,正是云上语音模式有别于传统语音服务商的区别所在。
虽然「云上语音」听起来像是一个新模式,但在鄢志杰看来却并非如此。还以客服呼叫中心为例,以往客服中心提供商需要到客户的办公所在地为他们提供服务,但现在,这种服务从底层运算存储到工作页面,都已实现云化。在云化的基础上,供应商发现云平台还可以提供AI的能力(如智能语音),因此造就了「云上AI」的大规模落地。
简单来说,「云上语音」并非是一种「新模式」,而是基于云服务的自然延伸。
2授人以鱼,不如授人以渔
从另一角度来看,虽然云上语音是基于云服务的一种延伸,但在服务模式上却有着本质的差别,总结起来一句话即「授人以渔」。
「授人以鱼」的初衷,来自于前文提到的用户对于个性化功能的需求。例如,在金融领域下还可细分为保险、证券、银行等分支,一个标准化的「金融领域语音识别模型」是无法适用于多个细分分支的。
传统的语音技术服务商走的是「自产自销」模式,面向行业应用的个性化定制手段少、门槛高、周期长、成本高,导致语音技术在产业落地应用中进展缓慢。
而云上语音模式,则是将「自学习」能力开放给用户。通过阿里云语音自学习平台,用户可以在完全不了解语音语言算法的情况下,通过灌注行业数据,快速定制出一套自己专属的语音模型。用鄢志杰的话说,这相当于把原来操作复杂的单反相机,变成了傻瓜相机,用户只要半按快门,阿里云就已经将相应的参数优化好了,这样用户就可以将全部的精力放在取景和构图上了(即自身的业务上)。
不仅如此,阿里云语音自学习平台还具备以下几个特点:
- 1.自适应,通过对领域数据的使用和知识的灌注,自动将一个80分的模型优化到95分;
- 2.优化速度快,借助于云底层平台,模型优化可以做到分钟级;
- 3.全链路覆盖,适用于各种各样的场景,无论云上的产品还是私有化部署都可以使用;
- 4.云原生弹性赋能,云上语音服务具备传统语音服务所不具备的面向海量用户提供服务的能力;
- 5.多域环境支持,既支持SaaS级服务,让用户可以直接在平台上做优化;也支持PaaS级服务,用户业务系统可直接进行集成。
除了语音自学习平台,达摩院语音实验室还研发出了不少「黑科技」,例如KAN-TTS语音合成技术,这一技术让合成音与原始音频的接近程度空前地提高到了97%(传统技术的接近值为85%-90%)。基于迁移学习及多种新型算法模型,只需用手机录音十分钟,KAN-TTS即可根据发音人的声音风格,快速生成高相似度的语音。目前,这一技术与其他技术一样,被应用在了多个产品及服务中。
3「云上语音」有哪些典型的应用场景?
“我们接触到的终端用户,如某某银行,和传统的语音服务提供商的终端客户是一致的。因此我认为不存在哪种客户是只适合传统语音服务提供商而不适合云上语音服务的。”当被问到“云上语音适用于哪些场景“时,鄢志杰这样说道。
在所有应用场景中,阿里语音AI在呼叫中心、电信运营商、法庭庭审中的客户认知度,排名第一。
此外,在2019年,阿里语音AI还对全国首个虚拟人工智能配网调度员帕奇进行了支持。帕奇的「大脑」里储存着调度规程、安全规程、分析报告等数十万字的文本材料;还有上百TB的设备、人员、电网拓扑等基础数据及5000小时语音数据。当帕奇发现电网故障时,会第一时间发出故障警告,电话联系相关抢修专家,并准确计算出抢修专家到达抢修现场所需要的时间、导航路径等。
帕奇上岗前,配网调度员每天需要接通100多个电话,通话超过200分钟,实时监控500条信息,配调早晚高峰期的电话同时呼入量高达40次,根本来不及接通,现场人员需要长时间等待。
而帕奇的出现则大大提高了调度的效率,他最多可以同时拨打200个电话,24小时不间断工作,并准确地完成海量数据的监视工作。他的出现把现场人员的等待时间缩短到了1分钟。更神奇的是,帕奇不仅能对普通话对答如流,面对口音较重的老师傅,还能对杭州话、杭州萧山话进行识别。
除了对外部客户的支持,阿里语音AI也应用在了很多阿里的内部业务上,包括阿里集团几十个BU、近百个业务方。例如淘宝、天猫、支付宝、天猫精灵、钉钉、阿里妈妈、1688、零售通、支付宝、书旗小说、UC浏览器、夸克浏览器、盒马、菜鸟、大麦和高德等。
2019年4月,达摩院语音实验室联合高德地图上线了「你好小德」语音助手,支持语音搜索地点、规划道行、信息查询等多项功能。2019年双十一期间,阿里语音AI支持了阿里经济体峰值近万并发的智能外呼和导航业务,其中98%以上的电话客服都是由语音AI提供。这也进一步验证了阿里语音AI背后的超大规模并发支持能力,正因如此,达摩院的云上语音技术,也在2019年被MIT Technology Review评为“2019年十大突破性技术”。
4结束语
根据《中国AI云服务市场半年度研究报告》预测,2018年到2024年中国AI云服务市场的复合增长率将高达93.6%。未来3-5年,已经部署的AI产品,也可能被新一代更智能的产品替代。这意味过去传统AI/语音服务提供商的客户,都有可能成为云服务商的客户。
正如IDC报告所言,“语音语义领域,用户重视的是服务,能不能满足客户的个性化需求十分重要,另外服务态度也很重要。”只有能针对用户的个性化需求提供定制服务的,才能笑对未来的市场。
而对于已经在这波大潮中先行的阿里语音AI来说,未来则会去开拓更多在现有技术下无法实现,却具有高价值的语音场景,用「云+语音」去解锁更多的可能!