1. 背景介绍
前两年在公司负责智能语音交互系统的SDK开发,最开始基于第三方全链路能力快速上线了一版快速支持业务,进行效果验证。随后从端到云,从工程到算法都进行了全自研的切换。虽然客户端基于亚马逊AVS SDK改造而来,通讯协议也是基于Alexa,但中间也做了很多我们自己的东西,包括SDK删减,云端多链路竞争选择等。现在随着大模型的涌现现象出现,现在回过头来重新审视智能语音对话系统,把自己的一些想法和心得做一下总结。
2. 智能对话系统发展历史
智能语音对话系统只是智能对话系统的一个延伸,对了语音输入和语音输出的能力,但核心还是“对话系统”,到底是“智能”还是“智障”还要看这个对话系统提供多少能力,拥有多少技能。
首先我们先看看对话系统发展历史:
从1966年到现在经历了规则时代、智能助理时代、深度学习时代以及现在的LLM时代:
- 早在 1966 年 MIT 开发了基于规则驱动的系统,面向心理咨询场景。
- 2011 年,苹果发布了 Siri,在工业界引起了广泛关注,是一个重要里程碑。
- 微软 2014 年推出小冰,主打智能聊天,后续也扩充了各种好玩的技能。
- OpenAI 2022年底推出ChatGPT,给人们带来了足够的震撼。
3. 智能语音对话系统交互流程
智能语音对话系统的输入变成了语音,会经过信号处理及语音识别,输出也变成了语音,通过TTS技术,将文本转换为语音。核心的大脑还是语音理解+对话管理+回复生成。
4. 大模型成功能给智能语音交互系统带来什么
之前的对话系统的智能程度靠技能数量的多寡来衡量,技能的开发基于槽位的抽取以及资源的调用来封装。随着LLM的成熟,资源内置于模型,交互更自然也更强大。
从目前看对话理解正面临着三个挑战:
- 大规模持续增长的理解体系、
- 语音识别错误和口语化问题的鲁棒性挑战、
- 需要满足不同用户的个性化需求
面对 ChatGPT 的成功,可以将其背后的强大能力拆解为三个维度,分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。ChatGPT 最大的亮点是语言智能统一范式的飞跃,在此之前整个学术界也一直在探索。
对于“ChatGPT 能否代替语音助手”这个问题,目前看是“不能直接完全替换,但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言,ChatGPT 本身的满足方式还是文本信息,无法直接连接数字世界的服务和 API,比如订闹钟、播放音乐等,而这些都是已有助手需要解决的问题,同时还存在事实性的问答错误以及时效性信息的更新问题,因此无法直接替换。特别是一些私有的API,比如说操作智能家居开灯关灯,操作我们的手机APP(比如语音交互的方式打麻将)。
4. 展望
怀着既害怕又期待的心情看待AGI的到来,通用人工智能的到来会解决我们真正的“智能对话”的问题,它想一个人一样和我们对话,而且千人千面,个性化十足,那个时候可能才能真正的“去智障”。
5. 总结
本文介绍了智能对话系统的历史,智能语音交互系统的交互流程,大模型给智能交互系统带来的冲激和提升,以及对AGI到来后的展望。