用户和天猫精灵通过语音交互的一个典型流程分析

简介: 用户和天猫精灵通过语音交互的一个典型流程分析

虽然从普通用户眼中,使用语音向天猫精灵发起指令,然后收到后者的语音回复,这个流程似乎很简单,但背后实际上有着人工智能中 ASR(语音识别)、NLP(自然语言处理)、TTS(语音合成)等自然语言处理技术的参与和整合。

我们先来看一个典型的用户通过语音同天猫精灵交互的流程图。

  1. 用户用语音唤醒天猫精灵,后者接收到用户语音,上传到智能应用平台。
  2. 平台使用 ASR(音频转文字)和 NLP(自然语言处理)技术,智能解析出用户发出语音包含的意图(通俗的说,即用户当前期望天猫精灵完成什么样的操作)。平台会自动将当前用户指令,匹配到开发人员创建的对应的技能和意图去。具体的匹配过程,就是将平台所有解析到的参数信息,通过 HTTPS 请求访问开发者提供的服务接口。
  3. 开发者负责实现的服务(托管在自己的应用服务器或者阿里云 Serverless 环境),接收到平台发送的请求参数,执行业务逻辑(比如天气预报查询,智力题,语音游戏等),并组装回复结果。
  4. 智能应用平台收到开发者服务执行完业务逻辑返回的响应数据后,使用 TTS(文字转音频)合成音频,并将音频推送回天猫精灵。
  5. 天猫精灵将收到的音频通过麦克风播报出来,本轮同用户的交互就完成了。

分析这个交互场景,不难发现,需要开发人员动手操作的流程包含以下两个方面:

  1. AliGenie 技能应用平台上创建新的技能和意图,用于接收用户通过语音发送过来的请求。
  2. 应用开发人员自己选择在应用服务器还是 Serveless 运行环境里实现新的技能需要完成的业务逻辑编写。
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
数据采集 自然语言处理 语音技术
分析在智能语音对话流程
一,分析在智能语音对话流程的各个主要模块交互时序流程(以呼入为例),主要流程为: 1.客户拨打电话给智能语音客服。 2.智能语音客服接听电话后,呼叫中心平台调用业务流程管理接口,启动并初始化对话流程状态图。 3.业务对话流程管理模块初始化对话流程状态图后,发送开场白话术给呼叫中心。 4.呼叫中心平台接收到开场白话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知用户。 5.客户收到开场白语音后同样做出相应的语音回复,开始进行对话流程。 6.呼叫中心平台收到用户的回复语音后通过MRCP协议调用ASR服务进行语音识别。 7.呼叫中心收到ASR返回的文字结果
|
数据采集 自然语言处理 语音技术
分析在智能语音对话流程的各个主要模块交互时序流程okcc呼叫中心
分析在智能语音对话流程的各个主要模块交互时序流程(以呼入为例),主要流程为: 1. 客户拨打电话给智能语音客服。 2. 智能语音客服接听电话后,呼叫中心平台调用业务流程管理接口,启动并初始化对话流程状态图。 3. 业务对话流程管理模块初始化对话流程状态图后,发送开场白话术给呼叫中心。 4. 呼叫中心平台接收到开场白话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知用户。 5. 客户收到开场白语音后同样做出相应的语音回复,开始进行对话流程。 6. 呼叫中心平台收到用户的回复语音后通过MRCP协议调用ASR服务进行语音识别。 7. 呼叫中心收到ASR返回的文字结果后,
|
人工智能 自然语言处理 JavaScript
天猫精灵语音交互体验
生活有良伴,万物有精灵。天猫精灵是阿里推出的人工智能的产品,主要与人进行交互,通过人工智能,改变大众生活方式。生活中经常遇到的场景,小朋友经常使用天猫精灵播放“米小圈上学记”。本篇文章简单介绍下,如何自定义天猫精灵语音交互。
天猫精灵语音交互体验
|
测试技术 语音技术
天猫精灵开放平台语音识别测试体验
天猫精灵目前来讲不够聪明,“呆头呆脑”,语音识别能够帮助天猫精灵更聪明,但目前还受到较多限制。
824 0
天猫精灵开放平台语音识别测试体验
|
23天前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
42 4
|
API 语音技术 Python
Python 技术篇-百度语音识别API接口调用演示
Python 技术篇-百度语音识别API接口调用演示
399 0
Python 技术篇-百度语音识别API接口调用演示
|
10天前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
23天前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
23天前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
263 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
290 0

热门文章

最新文章