智能语音交互概述(二)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 智能语音交互概述(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音交互概述(二)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19286


智能语音交互概述(二)


三、智能对话系统的组成


1、智能对话系统的要素

图片677.png

智智能对话系统里的要素:

第一个,用户,用户获取的是产品或者是服务的使用者,比如说一个关于电影的智能对话系统,跟对话的可能是一个喜欢看电影的年轻人这就是用户。


第二个,对话代理人,对话代理人既可以是真人比如说客服人员也可以是虚拟人,比如说是机器人。在对话系统的内部,因为设计目的不同,所以对话代理人叫agent,既可以用于解决单领域的问题,也可以解决多领域的问题,比如说阿里的产品天猫精灵就是一个对代理人。第三个,多轮对话,对话的轮次对话的一来一回叫一轮,来回多次的叫多轮的对话,比如说问最近有什么热门电影,天猫精灵就回答,推荐一下电影等等就算是一轮对话。


第四个,会话就是多轮对话,用户发起的一次多轮的对话。会话是对话代理人和用户之间发生了一些连续的对话。一般会话指的是就当对话开始一直在交互,然后到结束的过程中都叫会话。

第五个,意图是系统能够识别的最小的用户目的,是系统决策的基本的元素。比如说收到的,识别到的用户的意图是看电影都是一个意图。要识别出来意图机器人才能决定回复什么,比如说识别出来是要看电影还是要去定机票,就相应后面会有不同的会话。


第六个,槽位跟第七个实体或者是槽值放在一起来理解。实体跟领域息息相关,比如说要看电影,电影就肯定是这里面的实体,比如机器人是定机票,机票有实体,机器人可能是点餐,点餐里面的菜就是实体,特殊领域内的实体要单独的去定义。


第七个,通用的实体,可以有统一的平台的支持,实体有可能有一些值是需要去表述的,比如说实体喜剧,槽值情感剧去想象要填一张表格,表格里面的每个孔就是槽位,填写的内容,就是槽位的填充物。在会话的过程中有一些信息要提取出来提取出来放到槽位里面供后续的会话去做决策。

第八个,会话的要素是动作,在理解了人的用途之后,对话代理人除了回复消息之外,可能要做其动动作。


比如说订电影票,把智能系统的要素串出来来理解一下,用户比如说有看电影的,喜欢看电影的年轻人跟对话代理人。


比如说天猫精灵之间进行对话,先开始第一轮对话,有什么要有啥热门的电影,然后天猫精灵做一个推荐,这种情况一次会话就开始了,然后天猫精灵识别出来用户的用途是看电影,可能天猫精灵槽位可能设计的槽位需要知道要看什么类型的电影。


可能会话的过程中就要看什么类型的电影,然后用户可能反馈是要的喜剧。接下来可能会话会继续,但猫精灵可能会问有什么样的喜剧哪一部想看,123哪一部,然后用户可能有回复,确定了之后,天猫精灵就执行一个动作,去点电影票,这是会话智能对话系统的要素。

 

四、智能对话系统的实现


1、智能对话系统的实现流程

图片678.png智能对话系统的实现流程,主要有下面五步,分别是调研、定位、设计、测试和完善升级智能对话系统。


首先要进行调研,详尽的调研要进行需求分析。虽然说语音交互能够带来很多便利但是并不是所有的交互的方式都要替换成语音。然后有的时候还要用文字。而且如果在交互的过程中,要给用户去呈现复杂的信息可能还不方便,对话系统可能会增加复杂。


调研之后产品要有很好的定位。因为语音是在模拟人的行为,所以最好去建立好用户画像,建立虚拟人的形象,让人们将现实中的人的行为跟关联,形象的选择也看的应用的场景,比如说要严肃的可能用新闻联播的沟通方式,可能是活泼可爱的,可能是轻松诙谐的。选好人物的画像,选好的对话的风格这一步确定好了之后就开始进入到设计阶段了。


设计阶段有点像编程,在初级阶段要先设计好对话的逻辑。一般要用逻辑状态图去梳理,因为机器跟人的对话是存在多种可能性,除了完成核心的场景,还要考虑一些意外的情况,比如说用户的输入不在范围内,用户不按照的提示操作,或者说跟沟通很多次用户有没有反应。梳理出来之后要需要设计对话的流程,然后要为每一个状态都去编写叫对话体验脚本,对话的过程中,还要去设计,要去做情感化的设计,毕竟也不希望设计出来的对话系统就像冷冰冰的机器人,能在语音的交流里面对话情感的状态能被人感知到是非常重要的。


设计完成之后,要进行测试,要把设计出来的然后大声的朗读,朗读出来,听起来像口语,不是书面语言,然后要在应用场景里面去做测试。


测试完成后要进行迭代完善,要接受用户的反馈。进行更新,进行用户的统计分析也是非常重要的,比如说一个用户同一个问题提了很多次,比如说用户并不想要这个答案。这时候可以结合人工理解,然后再有选择的进行优化,以上就是智能对话系统的实现流程。


2、智能对话系统的技术应用

图片679.png

智对话系统里面包括了有语音识别加语言处理,对话技能,语音合成等是技术的综合的应用,比如这张图里面用户跟对话系统讲,帮我订一张去明天去广州的机票,就对话系统收到了之后,对语音是指定语音,对语音进行识别转化成指定文本,指定文本再经过计算机自然语言的处理。

然后去理解用户的意图,帮用户完成,然后再利用对话技能生成要回复的文本,生成回复的文本之后,再把文本用语音合成转换成音频,然后再通过对话系统返回给用户说,好的,已为您订好机票。

 

本节回顾

通过本节的学习,了解到了

1、智能语音交互,人机交互的方式是非常的丰富,智能语音交互,便捷高效,应用场景有优势和劣势。

2、然后智能对话系统就是人和机器可以通过自然语言进行自然交互的系统;

三种类别,任务型,问答型和闲聊性,

智能对话系统的发展的趋势,要能够快速适应,能够深度的理解人的意图,还要注意保护隐私的问题。

3、智能对话系统的组成里面一些主要是要素,用户、对话代理人的对话,对话轮次,会话,对话代理人去理解用户的意图,然后在沟通的时候通过槽位来记住信息,然后在沟通的过程中解析出来的信息,是槽值添加到槽位上去,然后沟通完了之后,智能对话系统可能会有一些动作action。

4、智能对话系统的实现的过程去调研,然后定位,然后是设计测试,最后是完善不断的迭代。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
自然语言处理 机器人 人机交互
智能语音交互概述(一)
智能语音交互概述(一)
249 0
|
机器学习/深度学习 人工智能 自然语言处理
智能语音技术概述
智能语音技术概述
404 0
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与智能语音概述 | 学习笔记
快速学习 人工智能与智能语音概述
199 0
人工智能与智能语音概述 | 学习笔记
|
6月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
202 4
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12272 116
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
13天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
36 0
|
14天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
25 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
87 4