【详解】智能语音交互@阿里巴巴

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
NLP自然语言处理_高级版,每接口累计50万次
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!

【编者按】

近日,阿里云在 2016年 会上公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主。据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第 50 届国际速联速记大赛全球速记亚军姜毅。


虽然是第一次正式亮相,但阿里云iDST的语音识别系统,已经在阿里巴巴的多个业务场景中应用了。从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以瞬间升级为100%的自动质检。除此应用场景之外,阿里YunOS、阿里小蜜以及手淘,现在都已经应用到阿里云的语音识别系统。


下文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!



智能语音交互@阿里巴巴

iDST-智能语音交互团队的使命是在阿里巴巴的技术平台上,为阿里巴巴以及阿里巴巴生态圈里的中小企业提供智能语音交互体验。


阿里巴巴为什么要自己做智能语音交互技术?

首先,在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。



其次,阿里巴巴本身就具有非常丰富的应用场景需要智能语音交互技术来优化体验(Speech+),而阿里巴巴生态圈上的中小企业也需要Speech+。



语音交互在下面几个场景中能给用户带来巨大的体验优化:

1. 在有很多选择的场景中快速直达

– 在手机上众多的APP中直接用语音进入一个应用并完成相关操作

例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。

– 在call center服务中直接用语音直达适合自己的服务选项

例如用户致电蚂蚁客服说“我向支付宝充值怎么没有到帐”,系统就会直接把用户转接到“支付宝转帐”技能组,并把相关信息展示给客服小二。

2. 屏幕很小或没有、手眼在忙

– 用遥控器选择电视盒子中的服务

– 开车在路上

– 通过智能音箱、智能手表或其他智能设备访问互联网服务

3. 让沉睡的语音数据发挥出巨大的价值

– 在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了

智能语音交互体验背后的支撑技术

当一个产品经理在规划产品中的语音功能时,在大多数情况下,TA需要的不仅仅是语音识别,还包括背后的智能交互(理解用户的问题,回答用户的问题,在需要的时候发问,根据用户的回答来决策等等)。概括起来,表面上看到的语音交互,背后实际上包含三个层次技术(语音技术、智能化技术、大数据技术),覆盖面非常广。这些技术不是靠一个团队能独立完成的。在我们实现的每个场景中,都需要跟很多团队业务层面、数据层面、数据服务层面等方面协作。

语音技术

– 语音识别(ASR)-- 把人讲的话转成文字

相关文章:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用


– 语音合成(TTS)-- 把文字说出来

相关文章:语音合成在语音助手中的应用及扩展


– 声纹识别和认证((Speaker Identification and Verification))-- 从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。

相关文章:特定人语音唤醒简介


– 情感识别 — 通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态

智能化技术

– 自然语言理解(NLU)--- 了解用户的意图

相关文章:自然语言理解


– 多轮对话管理(DM)

• 通过提问来进一步明确用户意图

• 跨领域对话

– 自然语言生成(NLG)--- 把查询到的信息反馈给用户

– 场景感知(contextual awareness)--- 根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图

– 个性化 – 通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务

大数据技术

– 各种垂直领域的数据服务(天气、航班、餐馆、…….)

– 垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)

– 知识问答(基于知识库、知识图谱的问答)

– 开放式聊天

相关文章:数据驱动的多策略聊天引擎


– 大规模机器学习模型的训练

• 深度学习算法的GPU多机多卡训练

相关文章:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware


• 智能语音服务的数据闭环

相关文章:语音识别pipeline建设



阿里云iDST团队在智能语音交互技术方面,已汇集了业界一流专家团队,进行自有知识产权的相关技术的基础建设。目前已经有了很好的技术积累,并在集团和蚂蚁客服、YunOS手机等场景上有了很好的业务落地。我们希望通过这期云栖社区专辑,把我们的技术和成果介绍给大家,也希望借此机会找到更多的合作伙伴,希望更多的伙伴愿意跟我们一起,让更多产品和应用都 “聪明” 起来。




相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
机器学习/深度学习 语音技术 开发工具
阿里巴巴开源语音识别声学建模技术
本文我们介绍阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN)。目前基于DFSMN的语音识别系统已经在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。
10496 0
|
自然语言处理 算法 测试技术
阿里巴巴高杰:3年风雨路,阿里巴巴自然语音交互的探索与经验教训
随着语音交互、自然语言处理、多模态等技术的发展,人机交互方式已经变得越来越简单,目前人机交互已经成为行业最热的研究方向之一。那么,未来人机交互的发展趋势什么呢?阿里巴巴智能语音交互专家高杰在《云栖大讲堂第三期|未来人机交互技术沙龙》上为大家分享了在阿里巴巴智能个人助理构建过程中所积累的经验和教训。
7793 0
|
新零售 人工智能 关系型数据库
4月10日云栖精选夜读:阿里巴巴高杰:3年风雨路,阿里巴巴自然语音交互的探索与经验教训
随着语音交互、自然语言处理、多模态等技术的发展,人机交互方式已经变得越来越简单,目前人机交互已经成为行业最热的研究方向之一。那么,未来人机交互的发展趋势什么呢?阿里巴巴智能语音交互专家高杰在《云栖大讲堂第三期|未来人机交互技术沙龙》上为大家分享了在阿里巴巴智能个人助理构建过程中所积累的经验和教训。
3037 0
|
新零售 人工智能 人机交互
智能语音市场有多大? 阿里巴巴将如何破局后来者居上?
 本文讲的是智能语音市场有多大? 阿里巴巴将如何破局后来者居上?【IT168 评论】“我在,你说”   “天猫精灵,99*99等于多少?”   “9801。”   “天猫精灵,请定一下明天早上七点半的闹钟。
2100 0
|
新零售 人工智能 人机交互
智能语音市场有多大? 阿里巴巴将如何破局后来者居上?
本文写的是智能语音市场有多大? 阿里巴巴将如何破局后来者居上?【IT168 评论】“我在,你说” “天猫精灵,99*99等于多少?” “9801。” “天猫精灵,请定一下明天早上七点半的闹钟。” “好的,已为您帮设定XX日上午7点30分的闹钟。
2018 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44603 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
122 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
764 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
666 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
711 0