聊聊智能语音交互系统

简介: 智能语音对话系统只是智能对话系统的一个延伸,对了语音输入和语音输出的能力,但核心还是“对话系统”,到底是“智能”还是“智障”还要看这个对话系统提供多少能力,拥有多少技能。

image.png


1. 背景介绍


前两年在公司负责智能语音交互系统的SDK开发,最开始基于第三方全链路能力快速上线了一版快速支持业务,进行效果验证。随后从端到云,从工程到算法都进行了全自研的切换。虽然客户端基于亚马逊AVS SDK改造而来,通讯协议也是基于Alexa,但中间也做了很多我们自己的东西,包括SDK删减,云端多链路竞争选择等。现在随着大模型的涌现现象出现,现在回过头来重新审视智能语音对话系统,把自己的一些想法和心得做一下总结。


2. 智能对话系统发展历史


智能语音对话系统只是智能对话系统的一个延伸,对了语音输入和语音输出的能力,但核心还是“对话系统”,到底是“智能”还是“智障”还要看这个对话系统提供多少能力,拥有多少技能。


首先我们先看看对话系统发展历史:


image.png


从1966年到现在经历了规则时代、智能助理时代、深度学习时代以及现在的LLM时代:


  • 早在 1966 年 MIT 开发了基于规则驱动的系统,面向心理咨询场景。
  • 2011 年,苹果发布了 Siri,在工业界引起了广泛关注,是一个重要里程碑。
  • 微软 2014 年推出小冰,主打智能聊天,后续也扩充了各种好玩的技能。
  • OpenAI 2022年底推出ChatGPT,给人们带来了足够的震撼。


3. 智能语音对话系统交互流程


image.png


智能语音对话系统的输入变成了语音,会经过信号处理及语音识别,输出也变成了语音,通过TTS技术,将文本转换为语音。核心的大脑还是语音理解+对话管理+回复生成。


4. 大模型成功能给智能语音交互系统带来什么


之前的对话系统的智能程度靠技能数量的多寡来衡量,技能的开发基于槽位的抽取以及资源的调用来封装。随着LLM的成熟,资源内置于模型,交互更自然也更强大。


从目前看对话理解正面临着三个挑战:


  • 大规模持续增长的理解体系、
  • 语音识别错误和口语化问题的鲁棒性挑战、
  • 需要满足不同用户的个性化需求


面对 ChatGPT 的成功,可以将其背后的强大能力拆解为三个维度,分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。ChatGPT 最大的亮点是语言智能统一范式的飞跃,在此之前整个学术界也一直在探索。


对于“ChatGPT 能否代替语音助手”这个问题,目前看是“不能直接完全替换,但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言,ChatGPT 本身的满足方式还是文本信息,无法直接连接数字世界的服务和 API,比如订闹钟、播放音乐等,而这些都是已有助手需要解决的问题,同时还存在事实性的问答错误以及时效性信息的更新问题,因此无法直接替换。特别是一些私有的API,比如说操作智能家居开灯关灯,操作我们的手机APP(比如语音交互的方式打麻将)。


4. 展望


怀着既害怕又期待的心情看待AGI的到来,通用人工智能的到来会解决我们真正的“智能对话”的问题,它想一个人一样和我们对话,而且千人千面,个性化十足,那个时候可能才能真正的“去智障”。


5. 总结


本文介绍了智能对话系统的历史,智能语音交互系统的交互流程,大模型给智能交互系统带来的冲激和提升,以及对AGI到来后的展望。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
6月前
|
Web App开发 机器学习/深度学习 语音技术
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测【4月更文挑战第3天】
294 1
|
10天前
|
机器学习/深度学习 自然语言处理 Linux
Linux 中的机器学习:Whisper——自动语音识别系统
本文介绍了先进的自动语音识别系统 Whisper 在 Linux 环境中的应用。Whisper 基于深度学习和神经网络技术,支持多语言识别,具有高准确性和实时处理能力。文章详细讲解了在 Linux 中安装、配置和使用 Whisper 的步骤,以及其在语音助手、语音识别软件等领域的应用场景。
40 5
|
6月前
|
机器学习/深度学习 自然语言处理 Linux
【专栏】Linux 中的机器学习:Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔
【4月更文挑战第28天】本文探讨了在Linux环境下,先进自动语音识别系统Whisper的运用与实现高效ASR。Whisper基于PyTorch,支持多语言识别,具有高准确性和实时性。文中介绍了安装配置Whisper的步骤,包括安装依赖、下载代码、配置环境变量及编译安装。通过数据准备、模型训练和识别,可实现语音识别功能。Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔。
287 1
|
3月前
|
存储 算法 Serverless
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
|
5月前
|
存储 Ubuntu 编译器
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
|
5月前
|
Ubuntu Unix Linux
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
|
5月前
|
Linux 编译器 语音技术
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
|
6月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
6月前
|
JSON 自然语言处理 Java
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
309 0
|
6月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
312 9