\N

开发者学习笔记【阿里云人工智能工程师ACA认证（2023版）:智能语音交互概述（一）】

课程地址：https://edu.aliyun.com/course/3112108/lesson/19286

智能语音交互概述（一）

内容介绍

一、智能语音交互介绍

二、智能对话系统的介绍

三、智能对话系统的组成

四、智能对话系统的实现

一、智能语音交互介绍

图片670.png

人机交互，人机交互顾名思义就是人和机器之间的交互。

当然机器一般都是指的是计算机，假如说在看视频的时候需要暂停。就会按鼠标按下暂停键，或者方式。如果播放就按下播放键。方式叫键鼠交互，是用键盘、鼠标来跟计算机交互，这是跟计算机交互的方式

除了键鼠交互之外，还有什么方式可以跟机器互动，计算机或者是跟智能设备去互动？

图片671.png

回顾一下人机交互的发展趋势。

最早期第一台通用电子计算机的时候计算机是要通过手工操作的，人直接去做机器，甚至还要人就要去做换件推广，然后要去拿磁带，在磁带上面打孔，用方式去做输入。

然后到了桌面时代，桌面的操作系统的时候，计算机给到的内容就丰富一点，就有了图形的用户界面，给的是一个图形的界面，跟计算机打交道的主要的输入设备就是鼠标和键盘，当然键盘的样子就是从以前的打字机里面发展过来用键盘跟计算机交互。

键盘，鼠标又是一项伟大的发明，这主要是用在图形界面。一直到现在，鼠标键盘还是主流的人机交互的方式。

后来随着智能手机的普及，当然计算机也有，特别是手机、电脑也有触控的交互的方式，主要是从智能手机还有一些终端的设备，比如智能手表，智能平板，从这些设备开始人机交互，就进入到了触摸式交互的时代，其实在智能手机上面是最明显的，而且触摸的方式其实已经改变了智能手机的外观以及UI，跟用户交互的界面。

当然语音交互也是一个方式，在智能手机里面也可以进行交互手机里的语音助手，除了跟手机的交互之外，比如说智能音箱，天猫精灵这类是非常明显，因为没有别的交互方式主要就是用语音去沟通去交换。

语音交互是本节课的主要内容，接下来会对语音智能语音交互做一个详细的介绍。

除此之外还有体感交互，但体感交互目前并不是很常见，比如说很早之前出现在KMAIT设备可以玩体感游戏，还有一些智能设备可以进行手势识别，总体来说人机交互的方式就是越来越丰富，越来越方便，越来越人性化，里面每一种的人机交互方式都有的优点和缺点，这里重点关注智能语音交互。

1、智能语音交互的定义

图片672.png

智能语音交互的，先看一下这张图，人跟机器人讲，帮我订一张明天去广州的机票，然后机器人就说好的，已为您订好机票，这就是智能语音交互的。

智能语音交互是基于语音输入的新一代的交互模式其实是从语音输入发展开始的。语音交互技术要基于语音识别技术，就是机器要能理解的语音识别出来，说的内容，然后语音合成，因为语音交互的过程中，也要用语音跟对话去回复，所以要有语音合成的技术。

自然语言理解，要知道说的话到底是什么意思，明白指令，或者想跟沟通内容，像这里面帮我订一张明天去广州的机票。要把话讲出来，机器人能识别、能听到，听到之后可能是翻译成文字，但同时要理解这句话的意思，就是明天的去广州的机票，订票，把这些都能理解甚至要能够完成，然后再通过语音合成的方式告诉，当然没有用智能语音交互的方式去订购机票，但是手机可以，就比如说定明天早上八点的闹钟，然后就能够识别到说话的意思，然后再告诉本人说好的，已经为设置好闹钟，这个过程就是语音交互的过程。

2、智能语音交互的优劣势

图片673.png

首先这张语音交互在信息传递效率方面是有优势的，相对于传统的键盘的输入，语音输入在速度和准确率方面更具优势。

利用语音输入英语和普通话的速度分别是传统速度的03:24倍和3.21倍。

信息传递的效率进一步给拆分为四类，第一种是检索高效，有一些输入词是非常复杂的，有一些情况下输入的方式又不方便，这类情况下语音交互就更高效，比如说用智能电视希望打开之后查找某一个电影这种时候用遥器去控制的输入方式很不方便语音就简单的多了，还有比如开车的时候希望导航输入导航的目的地址可能不太方便，用语音交互的方式就比打字要方便的多了而且也会安全的多。

语音传递效率还有一种情形是在跨空间的便捷的原厂的方式，语音可以离好几米的距离，听得到就可以跨空间的进行操作，比如说智能家居的控制，智能家居里面很多交互都是用语音去完成的。

语音交互还可以做出跨长点的操作，潜在好处是可以根据说话的内容自动判断意图场景，这在需要频繁跨长点的交互情况下语音的交互是更加的高效的，还有语音组合，如果是支持多个指令的组合，一次可以通过语音下达多条指令。然后分别去执行，这样的效率就比在屏幕上点来点去，选来选去的效率要高很多。

信息传递效率就是不光是在录入的速度方面，还有传递的方式上面可能在某些情况都会更有效率。

第二个优势是使用门槛低。因为语音交互的学习成本很低，而且可以为障碍群体带来极大的便利，语音交互对非文字使用者非常友好，人类是先有语言再有文字的，每一个人都是先会说话，但是有部分人不会写字，或者老人有可能不会小孩还有失明的人，无法用文字来交互，这种情况用语音来交互就带来了极大的便利。

学习成本，语音交互的成本也非常低，语音交互更自然，在非复杂的场景下，语音交互比界面交互更自然，学习成本更低，使用门槛低。

第三个是语音交互是可以传递声学信息的，依声音可以判断性别，年龄，还有说话的人的情绪等等信息。自己在跟人沟通的时候就知道文字的沟通有的时候是不如语音的沟通，用语音里面声音里面包含的语音，语调，情绪，情感的信息。

另外还有一些特殊的情况，比如说可以通过声纹识别，每个人的声音都有的特质，通过声纹可以进行身份的判断，这就是为什么拿起电话打电话，就知道一个人的声音，听到一个声音可能就猜出来是谁在说话，也就是说语音交互中的声音带的信息比文字会更多。

接下来看智能语音交互的劣势，就每种交互方式都是有优势有劣势的。第一个是信息接收效率低。因为语音的输出是线性的所以当人说话的时候把话全部要听完之后才能理解。所以不能像文字一样可以跳着去阅读，如果说的话非常的冗长，时候会增加的用户的记忆负担，特别是种有很多选项选择的情况。

同时也没有办法输出更多的内容，在接受信息还有多选择的交互的时候，视觉是有更大的优势的声音的效率不高，总结来说就是语音交互对单项指定是更有效的，双向交互不是很有效。

第二个是受嘈杂环境的影响，在嘈杂的环境下，语音识别的精度会变低。语音识别要清晰的识别出人声，要将人声和环境声音进行分离。如果是几个人说话，要将人声跟人声分离，嘈杂的环境就让人声音的提取变得困难，尤其是针对原厂语音的交互，噪音的问题会更加的突出。

目前业界普遍的会使用麦克风阵列硬件和相关的一些算法来优化问题，但是无法完全解决。比如在原厂安静环境下语音识别率能达到95%或以上，但是在嘈杂的环境下可能只能达到80%，当然随着技术的不断进步，在嘈杂环境下的语音识别会逐渐的提升和完善

第三个公开环境的影响。在公开的环境下使用语音交互可能有的用户会有心理负担。没有多少人会愿意跟机器说话这样看起来可能会有点傻，还有就是因为说话的时候可能说话的内容都被旁边的人会听到也会有心理负担。

另外，语音交互系统是设计的，在交互的过程中，不同的人可能有不同的行为的模式，在同一种情况下，不同的人可能有不同的期望，所以怎么去设计交互系统也很麻烦。智能语音的交互的优势劣势就分析到这里。

二、智能对话系统的介绍

图片674.png

智能对话系统就是人和机器，通过自然语言进行对话交互的系统。让机器智能，既能听懂人讲什么，也能用语言，用语音去回复给人这就是要求智能系统能够用准确、简洁的自然语言，回答用户用自然语言提出的问题，强调要准确简洁，智能对话系统不能像祥林嫂一样啰啰嗦嗦，唠唠叨叨的，当然对话的时候准确肯定是必然的一个条件。

当然这里说的智能对话系统其实要求还是蛮高的，要注重跟人的交互，要有对人的意图的理解，对话氛围的感知和回答要有多样性要有个性化的回答。

一起来看一下上面的流程图，有用户，有管理员，用户当然是智能对话系统的用户会向系统提出提问，然后收到系统的答复。

系统基本的功能有意图识别对人的意图的理解，对话管理，阅读理解，智能图谱，还有智能推荐有这些功能。

智能对话系统的背后要有一个知识库，知识库里面包括有词槽词典，问答数据，对话样本，还有一些数据标注，还有一些话术也就是说上面的是怎么样对对化处理，下面的知识库是对话的时候怎么样要有一个支撑，知识库是由管理员去维护和训练的。

计算机在收到了人的提问之后，有些回复数据是要从知识库里面取得然后再答复给用户，当然人在跟计算机进行交互的过程中，会产生数据，数据也可以作作为训练数据来使用。

当然智能对话系统可能还有一些功能要完成，可能需要调用外部的应用服务，比如说互联网服务或者是去查一些业务数据，对话系统就要调用服务，调用完服务之后返回结果然后再把结果答复给用户。其实图已经很清晰的说明了智能对话系统的样式，

1、智能对话系统的分类

图片675.png

智能对话系统的分类，根据用途分，智能对话系统可以分为任务型、问答型和闲聊型这三种。

这三类对话机器人的覆盖范围是由低到高的的方向。要求的精度是由高到低，由低到高，由高到低这样。

第一种是任务型机器人比如说对机器人说帮我去订一张明天去北京的机票，是希望机器人去完成特定的任务，完成任务对机器人涵盖的范围不会太广，也很难去做到一个机器人又能做这些又能做哪些。但是精度要求要完成的很高，要帮去完成一张订机票的事情一定要做的很精准。

任务型机器人，很可能要通过多轮的对话来满足任务的需求，比如说定一张去北京的机票，是早上的，中午的，晚上的，有什么要求没有，然后可能会查询问本人，几轮对话之后确认这个事情，如何评估这个事情以需求的完成率来作为的评估的指标。

第二种是问答型机器人比如说问机器人天安门在哪里？问问题的时候是希望得到问题的答案，回复的知识是从哪里来的，肯定是要先有一个领域的知识库，要问的领域的知识库。然后从知识库里面获得数据然后再反馈，问天安门在哪里去知识库查，天安门是在北京，很多知识库里面是这样描述的，然后就会回复天安门在北京，这样就完成了问答，反正问答型的是以准确率，就是回答的准确率来作为的评估的指标。

第三种是闲聊性机器人，好无聊，聊聊天，然后就跟聊天，可能没有明确的目的，就聊天然后有一些手机的手机助手就可以就是叫谁谁谁，然后给讲个笑话，就给讲个笑话，对于这些问题机器人没有标准答案，没有一个标准的答案跟上面问答型差别很大，更不用去执行，不用像任务型去执行，评估是相关性趣味性就好不好玩，跟聊天的内容是不是有关系的，是不是一个很不错的回答。

这里补充一下为什么会对智能对话系统去做分类，因为任务型，问答型，闲聊型机器人的设计的方向差别就很大叫术业有专攻，在实际的应用的过程中要制作不同的智能对话系统，满足不同的需求。绝对不可能希望帮我订张明天去北京的机票，然后机器人就不理，闲聊开玩笑，完全接受不了。只是从交互入口的角度来讲，希望就是跟聊天对话的机器人做的事情越多越好，也希望随着技术的发展机器人是可以合一的变得更加的智能。

3、智能对话系统的发展趋势

图片676.png

智能对话系统虽然取得了不小的成就但是仍存在一些问题，下面来讨论几种研究的方向和发展的趋势。

第一个方向是快速适应。实际上端到端的模型引起越来越多的研究者的重视。但是实际在工程中，特别是一些新的领域，或者是特定领域的对话数据的收集和配套系统的构建还是比较困难的，未来还是希望能够从机器和人之间的交互中去主动的学习，不断的交互就不断的学习，有点像人和机器之间去进行磨合，通过方式可以快速的去适应用户的需求，其实人跟人之间的对话也是这样，就是经常有沟通经常交互的人跟人之间，就会产生默契，智能对话系统也可以朝方向努力，比如可以根据用户的性格，去做自主的训练，然后提供个性化的方案适应每个人

第二个发展趋势，是深度理解，现阶段基于神经网络的对话系统很大程度上就是依赖已经标注好的数据，大量的标注好的数据。依赖结构化的知识库，依赖对话里面的大量的语料库。所以在某种意义上模型产生的回复，仍然是缺乏多样性的。

而且其实回复虽然看起来可能有个性化的成分，有的也是很有趣的，但是实际上没有太多的意义，所以对话系统最好是能够更加理解语言和更加理解真实的世界才能更理解对话，对话才能更智能，当然这里举个例子，比如说像经常说的意思意思，意思意思人可能都不一定能够准确的理解和表达，希望机器怎么样理理解类似的。路也是有点漫长。

第三个方向是保护隐私。目前广泛应用的话方系统是服务越来越多的人，很可能使用的，很多人使用的对话助手是同一个，一个对话系统可能在和很多人沟通，根据互动能力，推理能力，理解学习的能力可能会存储一部分非常隐秘的信息，所以在构建对话系统的时候怎样对隐私进行保护，这是很重要的一个事情，比如说跟语音助手沟通的时候把自己的联系方式，姓名，地址全部都说了，如果另外一个人也用同样的对话。谁谁谁的地址，联系方式是什么，对话助手告诉就是隐私都没有得到保护。

智能语音交互概述（一）

智能语音交互概述（一）

一、智能语音交互介绍

二、智能对话系统的介绍

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书