智能语音交互@阿里巴巴

简介: 在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。

智能语音交互@阿里巴巴

iDST-智能语音交互团队的使命是在阿里巴巴的技术平台上,为阿里巴巴以及阿里巴巴生态圈里的中小企业提供智能语音交互体验。


阿里巴巴为什么要自己做智能语音交互技术?

首先,在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。

5c92f5eaf061f16a53422250e5f1b208083e38bf


其次,阿里巴巴本身就具有非常丰富的应用场景需要智能语音交互技术来优化体验(Speech+),而阿里巴巴生态圈上的中小企业也需要Speech+。


959044d2bd19ed0bf73a310b79d1106376cb1db2

语音交互在下面几个场景中能给用户带来巨大的体验优化:

1. 在有很多选择的场景中快速直达

– 在手机上众多的APP中直接用语音进入一个应用并完成相关操作

例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。

– 在call center服务中直接用语音直达适合自己的服务选项

例如用户致电蚂蚁客服说“我向支付宝充值怎么没有到帐”,系统就会直接把用户转接到“支付宝转帐”技能组,并把相关信息展示给客服小二。

2. 屏幕很小或没有、手眼在忙

– 用遥控器选择电视盒子中的服务

– 开车在路上

– 通过智能音箱、智能手表或其他智能设备访问互联网服务

3. 让沉睡的语音数据发挥出巨大的价值

– 在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了

智能语音交互体验背后的支撑技术

当一个产品经理在规划产品中的语音功能时,在大多数情况下,TA需要的不仅仅是语音识别,还包括背后的智能交互(理解用户的问题,回答用户的问题,在需要的时候发问,根据用户的回答来决策等等)。概括起来,表面上看到的语音交互,背后实际上包含三个层次技术(语音技术、智能化技术、大数据技术),覆盖面非常广。这些技术不是靠一个团队能独立完成的。在我们实现的每个场景中,都需要跟很多团队业务层面、数据层面、数据服务层面等方面协作。

语音技术

– 语音识别(ASR)-- 把人讲的话转成文字

相关文章:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用


– 语音合成(TTS)-- 把文字说出来

相关文章:语音合成在语音助手中的应用及扩展


– 声纹识别和认证((Speaker Identification and Verification))-- 从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。

相关文章:特定人语音唤醒简介


– 情感识别 — 通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态

智能化技术

– 自然语言理解(NLU)--- 了解用户的意图

相关文章:自然语言理解


– 多轮对话管理(DM)

• 通过提问来进一步明确用户意图

• 跨领域对话

– 自然语言生成(NLG)--- 把查询到的信息反馈给用户

– 场景感知(contextual awareness)--- 根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图

– 个性化 – 通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务

大数据技术

– 各种垂直领域的数据服务(天气、航班、餐馆、…….)

– 垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)

– 知识问答(基于知识库、知识图谱的问答)

– 开放式聊天

相关文章:数据驱动的多策略聊天引擎


– 大规模机器学习模型的训练

• 深度学习算法的GPU多机多卡训练

相关文章:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware


• 智能语音服务的数据闭环

相关文章:语音识别pipeline建设


阿里云iDST团队在智能语音交互技术方面,已汇集了业界一流专家团队,进行自有知识产权的相关技术的基础建设。目前已经有了很好的技术积累,并在集团和蚂蚁客服、YunOS手机等场景上有了很好的业务落地。我们希望通过这期云栖社区专辑,把我们的技术和成果介绍给大家,也希望借此机会找到更多的合作伙伴,希望更多的伙伴愿意跟我们一起,让更多产品和应用都 “聪明” 起来。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
新零售 人工智能 关系型数据库
4月10日云栖精选夜读:阿里巴巴高杰:3年风雨路,阿里巴巴自然语音交互的探索与经验教训
随着语音交互、自然语言处理、多模态等技术的发展,人机交互方式已经变得越来越简单,目前人机交互已经成为行业最热的研究方向之一。那么,未来人机交互的发展趋势什么呢?阿里巴巴智能语音交互专家高杰在《云栖大讲堂第三期|未来人机交互技术沙龙》上为大家分享了在阿里巴巴智能个人助理构建过程中所积累的经验和教训。
2989 0
|
自然语言处理 算法 测试技术
阿里巴巴高杰:3年风雨路,阿里巴巴自然语音交互的探索与经验教训
随着语音交互、自然语言处理、多模态等技术的发展,人机交互方式已经变得越来越简单,目前人机交互已经成为行业最热的研究方向之一。那么,未来人机交互的发展趋势什么呢?阿里巴巴智能语音交互专家高杰在《云栖大讲堂第三期|未来人机交互技术沙龙》上为大家分享了在阿里巴巴智能个人助理构建过程中所积累的经验和教训。
7571 0
|
新零售 人工智能 人机交互
智能语音市场有多大? 阿里巴巴将如何破局后来者居上?
 本文讲的是智能语音市场有多大? 阿里巴巴将如何破局后来者居上?【IT168 评论】“我在,你说”   “天猫精灵,99*99等于多少?”   “9801。”   “天猫精灵,请定一下明天早上七点半的闹钟。
2060 0
|
新零售 人工智能 人机交互
智能语音市场有多大? 阿里巴巴将如何破局后来者居上?
本文写的是智能语音市场有多大? 阿里巴巴将如何破局后来者居上?【IT168 评论】“我在,你说” “天猫精灵,99*99等于多少?” “9801。” “天猫精灵,请定一下明天早上七点半的闹钟。” “好的,已为您帮设定XX日上午7点30分的闹钟。
1986 0
|
机器学习/深度学习 自然语言处理 语音技术
揭秘阿里巴巴智能语音交互技术
阿里云智能语音交互背后实际上包含三个层次技术:语音技术、智能化技术和大数据技术。
5335 0
|
自然语言处理 大数据 语音技术
【详解】智能语音交互@阿里巴巴
本文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!
4442 0
|
API 语音技术 Python
Python 技术篇-百度语音识别API接口调用演示
Python 技术篇-百度语音识别API接口调用演示
380 0
Python 技术篇-百度语音识别API接口调用演示
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
4月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
161 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
164 0