聊聊智能语音交互系统-阿里云开发者社区

聊聊智能语音交互系统

2023-04-27 288

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 智能语音对话系统只是智能对话系统的一个延伸，对了语音输入和语音输出的能力，但核心还是“对话系统”，到底是“智能”还是“智障”还要看这个对话系统提供多少能力，拥有多少技能。

1. 背景介绍

前两年在公司负责智能语音交互系统的SDK开发，最开始基于第三方全链路能力快速上线了一版快速支持业务，进行效果验证。随后从端到云，从工程到算法都进行了全自研的切换。虽然客户端基于亚马逊AVS SDK改造而来，通讯协议也是基于Alexa，但中间也做了很多我们自己的东西，包括SDK删减，云端多链路竞争选择等。现在随着大模型的涌现现象出现，现在回过头来重新审视智能语音对话系统，把自己的一些想法和心得做一下总结。

2. 智能对话系统发展历史

智能语音对话系统只是智能对话系统的一个延伸，对了语音输入和语音输出的能力，但核心还是“对话系统”，到底是“智能”还是“智障”还要看这个对话系统提供多少能力，拥有多少技能。

首先我们先看看对话系统发展历史：

从1966年到现在经历了规则时代、智能助理时代、深度学习时代以及现在的LLM时代：

早在 1966 年 MIT 开发了基于规则驱动的系统，面向心理咨询场景。
2011 年，苹果发布了 Siri，在工业界引起了广泛关注，是一个重要里程碑。
微软 2014 年推出小冰，主打智能聊天，后续也扩充了各种好玩的技能。
OpenAI 2022年底推出ChatGPT，给人们带来了足够的震撼。

3. 智能语音对话系统交互流程

智能语音对话系统的输入变成了语音，会经过信号处理及语音识别，输出也变成了语音，通过TTS技术，将文本转换为语音。核心的大脑还是语音理解+对话管理+回复生成。

4. 大模型成功能给智能语音交互系统带来什么

之前的对话系统的智能程度靠技能数量的多寡来衡量，技能的开发基于槽位的抽取以及资源的调用来封装。随着LLM的成熟，资源内置于模型，交互更自然也更强大。

从目前看对话理解正面临着三个挑战：

大规模持续增长的理解体系、
语音识别错误和口语化问题的鲁棒性挑战、
需要满足不同用户的个性化需求

面对 ChatGPT 的成功，可以将其背后的强大能力拆解为三个维度，分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。ChatGPT 最大的亮点是语言智能统一范式的飞跃，在此之前整个学术界也一直在探索。

对于“ChatGPT 能否代替语音助手”这个问题，目前看是“不能直接完全替换，但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言，ChatGPT 本身的满足方式还是文本信息，无法直接连接数字世界的服务和 API，比如订闹钟、播放音乐等，而这些都是已有助手需要解决的问题，同时还存在事实性的问答错误以及时效性信息的更新问题，因此无法直接替换。特别是一些私有的API，比如说操作智能家居开灯关灯，操作我们的手机APP（比如语音交互的方式打麻将）。

4. 展望

怀着既害怕又期待的心情看待AGI的到来，通用人工智能的到来会解决我们真正的“智能对话”的问题，它想一个人一样和我们对话，而且千人千面，个性化十足，那个时候可能才能真正的“去智障”。

5. 总结

本文介绍了智能对话系统的历史，智能语音交互系统的交互流程，大模型给智能交互系统带来的冲激和提升，以及对AGI到来后的展望。

聊聊智能语音交互系统

1. 背景介绍

2. 智能对话系统发展历史

3. 智能语音对话系统交互流程

4. 大模型成功能给智能语音交互系统带来什么

4. 展望

5. 总结

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

聊聊智能语音交互系统

1. 背景介绍

2. 智能对话系统发展历史

3. 智能语音对话系统交互流程

4. 大模型成功能给智能语音交互系统带来什么

4. 展望

5. 总结

热门文章

最新文章

相关课程

相关电子书