本地语音识别IC应用中的主要问题-阿里云开发者社区

本地语音识别IC应用中的主要问题

2020-11-13 2045

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本地语音识别IC应用中的关于方言及口音的不同、环境中存在噪音问题；如何有效提升对用户指令词的识别；有哪些方式能够有效的降低语音本地识别IC的成本的问题进行分析

目前智能家居已经进入到“声控时代”，许多家庭中也已经采购了一些智能家居设备。但在许多场景下，智能家居的简单操控并不需要联网控制，为了能够实现更好的人机交互，由用户本地操控将更加方便，因此本地离线语音将不可或缺。同时针对实现本地离线语音的IC而言，面对如今复杂的使用场景也提出了更高的要求。

在用户使用本地离线语音时，由于各地方言及口音的不同，同时在环境中还存在了一些噪音，如何有效的识别用户的唤醒指令，同时避免一些误操作？回复：目前的离线语音识别是一套完整的系统，上海华镇的离线语音识别芯片包括了声学前端处理算法（远场拾音、麦阵、语音增强、波束成型、降噪、回声抑制等）和语音识别算法，环境中的噪音，通过声学前端处理，处理后干净的声音再送到语音识别引擎里处理，确保唤醒识别的准确性。误唤醒这一块，目前华镇的语音唤醒引擎通过了百度测试规范严苛的测试，误唤醒可以做到<4次/24小时。

而在设备语音被唤醒后，需要准备识别用户叙述的指令词，但由于指令词数量较多，如果与唤醒词一样做训练，将会极大提升工作量，因此如何有效提升对用户指令词的识别？回复：华镇的语音识别引擎采用了TDNN的语法识别算法，后台有完整的声学模型（训练了各种口音、各个年龄层的普通话的远近场录音），大词汇量的识别指令，文字编辑后和声学模型生成语法文件，语音识别时，到语法文件中去做搜索，所以修改指令会非常方便。华镇的语音大脑6291模组，支持用户动态更新识别指令集。

针对目前市场中的OTP ROM、FLASH ROM 和 EEPROM，在室内的智能家居使用场景中该如何选择？同时在放音时间上，通常都会控制在多少时间内最为合适？回复：目前语音控制智能家居场景里，提示音部分都是存储在Flash里，每句提示音都相对较短，在5秒以内。

在众多本地离线识别IC中，性价比将成为用户选购的首要标准，有哪些方式能够有效的降低语音本地识别IC的成本？回复：成本的下降有很多关键因素，主要是芯片，外围的电路也很重要，还有就是算法的演进，占用的算力会越来越少。如今芯片集成度越来越高，集成了ADC/DAC/RAM/ROM，外围电路会比较简单，整体BOM成本也会很低。算法的迭代和成熟，将很多消耗算力的计算，通过语音识别专用芯片里的硬件加速来完成（比如DSP、NPU），这些配合算法的专用语音识别芯片的出现，也会进一步降低成本。

在通过本地离线语音设备来控制其他设备时，将有哪些低成本可靠的方案可以实现？回复：集成有离线语音识别芯片的设备控制其他设备时，目前主要是通过外置IoT模组来实现，比如WiFi、BLE、RF433、Zigbee、红外、2.4G等，以后的发展趋势，离线语音识别+IoT会逐步融合，硬件上集成在一起，也就是最近大家热炒的AIoT方案。

本地语音识别IC应用中的主要问题

平头哥芯片开放社区

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

本地语音识别IC应用中的主要问题

平头哥芯片开放社区

热门文章

最新文章

相关课程

相关电子书