为什么你的智能硬件识别准确率低?

简介: 智能硬件的识别率提高方法

我们先讲一下智能硬件做语音识别的基本链路:

声音(目标声音和噪音)一起被智能硬件的麦克风(阵列)采集到,在智能硬件的芯片上通过预处理之后,然后再送往云端进行ASR(语音转文字)。

而很多智能硬件识别效果不好的主要原因是因为预处理,也就是声学处理没有做好,才导致识别效果不好。就像人耳朵一样,没听清楚讲话内容,可不得乱猜一通!

现在,云端的语音识别(ASR)可以通过SDK/API进行调用,大厂提供的识别接口背后所使用的算法和效果基本都差不多。毕竟,开源算法和大数据训练一起结合,在安静场景下,或者说送给云端一段干净的音频,准确率保持在98%以上都没有任何问题。

识别效果不好,问题出就出在了声学处理上。

如果声学处理没有做好,送给云端的就是一段带噪声的音频,如果是人与人通话还好,毕竟人的判别能力很强。但如果给语音识别算法来处理噪声没有处理好的音频,输出的结果就会差强人意,而且,即便如何优化云端识别算法,像热词、大模型下打小模型这些做法,依然不能有效优化识别的准确率。

那要如何才能做好智能硬件的声学处理呢?

首先,我们要了解,麦克风(阵列)采集到的声音里面都有那些音源。从组成类型来看,包括:

  • 目标人声音:希望提出出来转成文字的语音,越干净越好,专业术语是信噪比(SNR)越高越好,至少5dB及以上;
  • 混响声音:主要是在室内,目标人讲话的声音通过墙壁、地板、天花板等反弹之后的声音,类似山谷里面的回声;
  • 背景音:目标人所在环境的一些噪音,如室外的鸣笛声、风噪、行人交谈声音;室内常见的是电视播放的声音、风扇空调工作声音等等;
  • 设备自发声:如音箱播放的音乐声,机器人的语音播报声等等。

然后,根据不同的类型音源,就需要采用不同的算法来进行处理。

设备自发声,可以通过回声消除算法来进行解决,通过设计硬回采电路,把喇叭的声音连回麦克风,叠加相反的波形实现设备自发声的消除。不过,要想回声消除效果好,在做结构设计的时候,建议喇叭和麦克风离得越远越好。部分芯片支持软回采,也就是硬件方案上不用单独设计回采电路,不过,从效果上来看,硬回采优于软回采。

混响声音,可以通过去混响算法进行解决。一般来说,基本的去混响算法就可以达到不错的效果,不过,对于一些复杂的环境,去混响的算法尽可能在实际场景中进行实验和调试,以保证最佳效果。还要注意的是,去混响之后,对本身音频也会产生副作用,如失真或声音质量降低,这些不利的影响也要纳入整体效果的考虑中来。

背景音,就需要用到预处理中的最重要的降噪算法了。降噪一般分为通话降噪和环境降噪,最简单的区分是通话降噪后的音频是给人听的,环境降噪后的音频是喂给语音识别模型的。人的判断力远远强于语音识别模型,因此,环境降噪的要求比通话降噪高得多。

但是,越难的地方也越容易被应付,很多智能硬件的项目,要么觉得降噪不重要,要么觉得做降噪的时间成本和金钱成本都太高而应付了事,最终,却因为产品效果之后售后投诉太多反而得不偿失。

那么,要怎么样才能做好降噪呢?

从工程和产品来说,要做好以下三件事:

第一件事,确定场景和要求。比方说,主要使用的场景是哪里,室内和室外所要面临的降噪要求就完全不同。同时,还要确定要求有多高,是近场交互还是远场交互,需要多少颗麦克风的阵列,理论上讲,麦克风的数量越多,对芯片的算力要求越高,产品的成本也就越高,成本太高是否要向利润妥协,产品的目标用户能支持多高的价格区间等等,这些都是需要在项目立项的时候有基本的数据指标。

第二件事,找算法原厂沟通。一定要找算法原厂沟通,用芯片自带或者降噪模组,最后的理想的结果就是产品能用但不那么好用,甚至很多产品量产后根本就没办法用。硬件项目的周期一般小则半年,长则二三年,因为降噪的原因而失败就得不偿失了。最最关键的是,降噪效果还不能后期通过软件OTA来进行升级,因为之前做ID设计和硬件设计的时候,降噪效果的天花板就已经确定了,算法如何调优都是徒劳。

找算法原厂沟通,了解清楚麦间距、性能指标、芯片算力占用情况、功耗、适配周期、麦克风喇叭选型指标、硬件结构设计细节规范等等,才能真正保证后期产品的使用效果。

第三件事,实验室系统测试。没有测试就投产绝对是在搞破坏,声学这一块,同样需要进行系统科学的测试,评估满足量产标准后再进行量产,否则就应该按照测试结果进行整改。实在无法整改的部分,与算法原厂沟通性能恶化情况,可接受范围内可继续量产,不可接受范围内,一定要及时叫停进行整改。否则,一旦量产后,就再无回头路可言。

而声学方面,实验室系统测试的数据,包括以下部分:

麦克风:频率响应、底噪、灵敏度、信噪比、总谐波失真、密封性、阵列频响一致性等

喇叭测试:频率响应、总谐波失真、R&B、灵敏度等。

当然,有些指标不需要到实验室测试,自测也能发现问题。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
5月前
|
机器学习/深度学习 监控 TensorFlow
使用Python实现深度学习模型:智能农业病虫害检测与防治
使用Python实现深度学习模型:智能农业病虫害检测与防治
302 65
|
4月前
|
机器学习/深度学习 计算机视觉
深度学习之农作物病害检测
基于深度学习的农作物病害检测利用卷积神经网络(CNN)、生成对抗网络(GAN)、Transformer等深度学习技术,自动识别和分类农作物的病害,帮助农业工作者提高作物管理效率、减少损失。
79 3
|
8月前
|
机器学习/深度学习 传感器 算法
植保机器人目标检测与识别
植保机器人目标检测与识别
63 1
|
8月前
|
运维 算法 数据处理
|
计算机视觉
体育赛事的智能识别技术的应用
体育赛事的智能识别技术的应用
|
数据采集 机器学习/深度学习 人工智能
AI机器狗情绪识别
机器如何识别人的情绪
250 3
|
XML PyTorch 算法框架/工具
yolo5 训练无人人机识别系统
yolo5 训练无人人机识别系统
107 0
|
机器学习/深度学习 人工智能 监控
艾科瑞特科技(iCREIDT):2023年6月6日智能图像分析目标检测识别
艾科瑞特科技(iCREIDT):2023年6月6日智能图像分析目标检测识别 人工智能技术应用、iCREDIT、目标识别、图像分析、目标追踪、MIDJOURNEY、目标追踪、目标检测、大数据、智能图像分析、艾科瑞特科技、艾科瑞特科技云市场、AI、目标检测分析、目标检测识别、CHATGPT、机器学习、DETECT、AIGC、人工智能技术、艾科瑞特、人工智能、YOLO
|
机器学习/深度学习 人工智能 文字识别
Yolov5+图像分割+百度AI接口——车牌实时检测识别系统
Yolov5+图像分割+百度AI接口——车牌实时检测识别系统
774 0
Yolov5+图像分割+百度AI接口——车牌实时检测识别系统
|
机器学习/深度学习 传感器 算法
【水果质量检测】基于机器视觉实现苹果疾病识别分类附matlab代码
【水果质量检测】基于机器视觉实现苹果疾病识别分类附matlab代码