揭秘阿里巴巴智能语音交互技术

简介: 阿里云智能语音交互背后实际上包含三个层次技术:语音技术、智能化技术和大数据技术。
当一个产品经理在规划产品中的语音功能时,在大多数情况下,他需要的不仅仅是语音识别,还需要其背后的智能交互——理解问题、回答问题、在需要的时候发问、能根据用户回答决策等。

阿里云智能语音交互,就是这样的一款产品。它基于语音和自然语言技术构建的在线服务,为开发者在产品中提供“能听、会说、懂你”式的智能人机交互体验。

阿里云智能语音交互背后实际上包含三个层次技术:语音技术、智能化技术和大数据技术。

语音技术:

  • 语音识别(ASR)——把人讲的话转成文字
  • 语音合成(TTS)——把文字说出来
  • 声纹识别和认证((Speaker Identification and Verification)——从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。
  • 情感识别——通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态
智能化技术:

  • 自然语言理解(NLU)了解用户的意图
  • 多轮对话管理(DM)
  • 通过提问来进一步明确用户意图
  • 跨领域对话
  • 自然语言生成(NLG)——把查询到的信息反馈给用户
  • 场景感知(contextual awareness)——根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图
  • 个性化——通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务

大数据技术

  • 各种垂直领域的数据服务(天气、航班、餐馆、…….)
  • 垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)
  • 知识问答(基于知识库、知识图谱的问答)
  • 开放式聊天
  • 大规模机器学习模型的训练
  • 深度学习算法的GPU多机多卡训练
 
相比其他同类产品,阿里云语音交互拥有以下优势:

  • 国际一流的团队,并且和其他部门紧密结合
  • 阿里集团海量用户的考验
  • 强大的云运算能力
  • 基于超大型的数据集,构建并快速训练超大型的模型
  • 深度学习 GPU多机多卡middleware
  • 多机多卡训练在GPU集群中的硬件实现
  • 国际顶尖深度学习技术-LC-BLSTM声学模型在工业界的首次应用
阿里云语音交互的应用场景非常广泛。 

1.在有很多选择的场景中快速直达:在手机上众多的APP中直接用语音进入一个应用并完成相关操作。例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。

2. 屏幕很小或手眼在忙:
  • 用遥控器选择电视盒子中的服务。
  • 开车在路上;
  • 通过智能音箱、智能手表或其他智能设备访问互联网服务
3.让沉睡的语音数据发挥出巨大的价值:在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了

而在实际应用中,目前已有很多产品在使用阿里云语音交互。比如说,天猫魔盒,用户动动嘴,就可以直接跳转到自己的专属场景中,点歌、看视频、买东西,动嘴就可以搞定;在阿里集团的客户中,语音交互技术应用的“阿里小蜜”,也和小二一起为用户提供顺畅的售前、售中、售后的购物体验;在支付宝智能助理,针对用户“支付宝功能太复杂,找不到想要的功能”的痛点,也引入智能语音技术让用户“所说即所得”,通过语音直达应用。
 
相关资料
官网: 请点此进入
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
API 语音技术 Python
Python 技术篇-百度语音识别API接口调用演示
Python 技术篇-百度语音识别API接口调用演示
380 0
Python 技术篇-百度语音识别API接口调用演示
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
4月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
157 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
162 0
|
7月前
|
机器学习/深度学习 人工智能 人机交互
实验:智能语音技术简单实现
实验:智能语音技术简单实现
138 0
|
7月前
|
机器学习/深度学习 前端开发 测试技术
智能语音技术的相关技术(二)
智能语音技术的相关技术(二)
145 0
|
7月前
|
机器学习/深度学习 人工智能 算法
智能语音技术的相关技术(一)
智能语音技术的相关技术(一)
101 0
|
7月前
|
编解码 人工智能 算法
智能语音技术的处理对象(二)
智能语音技术的处理对象(二)
49 0
|
7月前
|
存储 人工智能 数据可视化
智能语音技术的处理对象(一)
智能语音技术的处理对象(一)
87 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音技术概述
智能语音技术概述
142 0