开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音交互概述(二)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19286
智能语音交互概述(二)
三、智能对话系统的组成
1、智能对话系统的要素
智智能对话系统里的要素:
第一个,用户,用户获取的是产品或者是服务的使用者,比如说一个关于电影的智能对话系统,跟对话的可能是一个喜欢看电影的年轻人这就是用户。
第二个,对话代理人,对话代理人既可以是真人比如说客服人员也可以是虚拟人,比如说是机器人。在对话系统的内部,因为设计目的不同,所以对话代理人叫agent,既可以用于解决单领域的问题,也可以解决多领域的问题,比如说阿里的产品天猫精灵就是一个对代理人。第三个,多轮对话,对话的轮次对话的一来一回叫一轮,来回多次的叫多轮的对话,比如说问最近有什么热门电影,天猫精灵就回答,推荐一下电影等等就算是一轮对话。
第四个,会话就是多轮对话,用户发起的一次多轮的对话。会话是对话代理人和用户之间发生了一些连续的对话。一般会话指的是就当对话开始一直在交互,然后到结束的过程中都叫会话。
第五个,意图是系统能够识别的最小的用户目的,是系统决策的基本的元素。比如说收到的,识别到的用户的意图是看电影都是一个意图。要识别出来意图机器人才能决定回复什么,比如说识别出来是要看电影还是要去定机票,就相应后面会有不同的会话。
第六个,槽位跟第七个实体或者是槽值放在一起来理解。实体跟领域息息相关,比如说要看电影,电影就肯定是这里面的实体,比如机器人是定机票,机票有实体,机器人可能是点餐,点餐里面的菜就是实体,特殊领域内的实体要单独的去定义。
第七个,通用的实体,可以有统一的平台的支持,实体有可能有一些值是需要去表述的,比如说实体喜剧,槽值情感剧去想象要填一张表格,表格里面的每个孔就是槽位,填写的内容,就是槽位的填充物。在会话的过程中有一些信息要提取出来提取出来放到槽位里面供后续的会话去做决策。
第八个,会话的要素是动作,在理解了人的用途之后,对话代理人除了回复消息之外,可能要做其动动作。
比如说订电影票,把智能系统的要素串出来来理解一下,用户比如说有看电影的,喜欢看电影的年轻人跟对话代理人。
比如说天猫精灵之间进行对话,先开始第一轮对话,有什么要有啥热门的电影,然后天猫精灵做一个推荐,这种情况一次会话就开始了,然后天猫精灵识别出来用户的用途是看电影,可能天猫精灵槽位可能设计的槽位需要知道要看什么类型的电影。
可能会话的过程中就要看什么类型的电影,然后用户可能反馈是要的喜剧。接下来可能会话会继续,但猫精灵可能会问有什么样的喜剧哪一部想看,123哪一部,然后用户可能有回复,确定了之后,天猫精灵就执行一个动作,去点电影票,这是会话智能对话系统的要素。
四、智能对话系统的实现
1、智能对话系统的实现流程
智能对话系统的实现流程,主要有下面五步,分别是调研、定位、设计、测试和完善升级智能对话系统。
首先要进行调研,详尽的调研要进行需求分析。虽然说语音交互能够带来很多便利但是并不是所有的交互的方式都要替换成语音。然后有的时候还要用文字。而且如果在交互的过程中,要给用户去呈现复杂的信息可能还不方便,对话系统可能会增加复杂。
调研之后产品要有很好的定位。因为语音是在模拟人的行为,所以最好去建立好用户画像,建立虚拟人的形象,让人们将现实中的人的行为跟关联,形象的选择也看的应用的场景,比如说要严肃的可能用新闻联播的沟通方式,可能是活泼可爱的,可能是轻松诙谐的。选好人物的画像,选好的对话的风格这一步确定好了之后就开始进入到设计阶段了。
设计阶段有点像编程,在初级阶段要先设计好对话的逻辑。一般要用逻辑状态图去梳理,因为机器跟人的对话是存在多种可能性,除了完成核心的场景,还要考虑一些意外的情况,比如说用户的输入不在范围内,用户不按照的提示操作,或者说跟沟通很多次用户有没有反应。梳理出来之后要需要设计对话的流程,然后要为每一个状态都去编写叫对话体验脚本,对话的过程中,还要去设计,要去做情感化的设计,毕竟也不希望设计出来的对话系统就像冷冰冰的机器人,能在语音的交流里面对话情感的状态能被人感知到是非常重要的。
设计完成之后,要进行测试,要把设计出来的然后大声的朗读,朗读出来,听起来像口语,不是书面语言,然后要在应用场景里面去做测试。
测试完成后要进行迭代完善,要接受用户的反馈。进行更新,进行用户的统计分析也是非常重要的,比如说一个用户同一个问题提了很多次,比如说用户并不想要这个答案。这时候可以结合人工理解,然后再有选择的进行优化,以上就是智能对话系统的实现流程。
2、智能对话系统的技术应用
智对话系统里面包括了有语音识别加语言处理,对话技能,语音合成等是技术的综合的应用,比如这张图里面用户跟对话系统讲,帮我订一张去明天去广州的机票,就对话系统收到了之后,对语音是指定语音,对语音进行识别转化成指定文本,指定文本再经过计算机自然语言的处理。
然后去理解用户的意图,帮用户完成,然后再利用对话技能生成要回复的文本,生成回复的文本之后,再把文本用语音合成转换成音频,然后再通过对话系统返回给用户说,好的,已为您订好机票。
本节回顾
通过本节的学习,了解到了
1、智能语音交互,人机交互的方式是非常的丰富,智能语音交互,便捷高效,应用场景有优势和劣势。
2、然后智能对话系统就是人和机器可以通过自然语言进行自然交互的系统;
三种类别,任务型,问答型和闲聊性,
智能对话系统的发展的趋势,要能够快速适应,能够深度的理解人的意图,还要注意保护隐私的问题。
3、智能对话系统的组成里面一些主要是要素,用户、对话代理人的对话,对话轮次,会话,对话代理人去理解用户的意图,然后在沟通的时候通过槽位来记住信息,然后在沟通的过程中解析出来的信息,是槽值添加到槽位上去,然后沟通完了之后,智能对话系统可能会有一些动作action。
4、智能对话系统的实现的过程去调研,然后定位,然后是设计测试,最后是完善不断的迭代。