备案控制台

开发者社区量子位文章正文

在终端设备上实现语音识别：ARM开源了TensorFlow预训练模型

2018-01-01 2888

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

关键词识别（Keyword Spotting，KWS）是语音识别领域的一个子领域，在用户在智能设备上进行语音交互时起到重要作用。

△ 关键词识别pipeline

近日，ARM和斯坦福大学合作开源了预训练TensorFlow模型和它们的语音关键词识别代码，并将结果发表在论文Hello Edge: Keyword Spotting on Microcontrollers中。

这个开源库包含了TensorFlow模型和在论文中用到的训练脚本。

在论文中，研究人员还展示了不同的神经网络架构，包含DNN、CNN、Basic LSTM、LSTM、GRU、CRNN和DS-CNN，并将这些架构加入到预训练模型中。

预训练模型地址：

https://github.com/ARM-software/ML-KWS-for-MCU/tree/master/Pretrained_models

论文摘要

在研究中，研究人员评估了神经网络架构，并且在资源受限的微控制器上运行KWS。他们训练了多种神经网络架构变体，并比较变体之间的准确性和存储/计算需求。

△ 神经网络模型的准确性

研究人员发现，在不损失精确度的情况下，在存储了计算资源受限的微控制器上优化这些神经网络架构可行。

之后，研究人员还进一步探索了DS-CNN架构，并且和其他神经网络架构进行了对比。

结果证明，DS-CNN架构的准确性最高，为95.4%，比超参数相似的DNN模型精确度约高10%。

△ 超参数搜索中的最佳神经网络

相关资料

论文下载地址：

https://arxiv.org/pdf/1711.07128.pdf

项目代码地址：

https://github.com/ARM-software/ML-KWS-for-MCU

本文作者：林鳞

原文发布时间：2017-12-14

文章标签：

智能语音交互

智能语音交互

存储

机器学习/深度学习

算法框架/工具

TensorFlow

语音技术

关键词：

智能语音交互模型

TensorFlow模型

TensorFlow开源

智能语音交互开源

设备智能语音交互

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

行者武松

目录

相关文章

蚝油菜花

|

20天前

|

人工智能自然语言处理语音技术

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

蚝油菜花

286 91 92

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

zzy的aly

|

5月前

|

机器学习/深度学习 TensorFlow 算法框架/工具

深度学习之格式转换笔记(三)：keras(.hdf5)模型转TensorFlow(.pb) 转TensorRT(.uff)格式

将Keras训练好的.hdf5模型转换为TensorFlow的.pb模型，然后再转换为TensorRT支持的.uff格式，并提供了转换代码和测试步骤。

zzy的aly

138 3 3

深度学习之格式转换笔记(三)：keras(.hdf5)模型转TensorFlow(.pb) 转TensorRT(.uff)格式

蚝油菜花

|

1月前

|

人工智能物联网测试技术

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

蚝油菜花

366 17 17

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

蚝油菜花

|

1月前

|

人工智能编解码语音技术

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

蚝油菜花

394 21 22

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

东方睿赢

|

4月前

|

机器学习/深度学习数据采集数据可视化

TensorFlow，一款由谷歌开发的开源深度学习框架，详细讲解了使用 TensorFlow 构建深度学习模型的步骤

本文介绍了 TensorFlow，一款由谷歌开发的开源深度学习框架，详细讲解了使用 TensorFlow 构建深度学习模型的步骤，包括数据准备、模型定义、损失函数与优化器选择、模型训练与评估、模型保存与部署，并展示了构建全连接神经网络的具体示例。此外，还探讨了 TensorFlow 的高级特性，如自动微分、模型可视化和分布式训练，以及其在未来的发展前景。

东方睿赢

451 5 5

子午s

|

4月前

|

机器学习/深度学习人工智能算法

【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型

手写数字识别系统，使用Python作为主要开发语言，基于深度学习TensorFlow框架，搭建卷积神经网络算法。并通过对数据集进行训练，最后得到一个识别精度较高的模型。并基于Flask框架，开发网页端操作平台，实现用户上传一张图片识别其名称。

子午s

200 0 0

【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型

子午s

|

4月前

|

机器学习/深度学习人工智能算法

基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型

蔬菜识别系统，本系统使用Python作为主要编程语言，通过收集了8种常见的蔬菜图像数据集（'土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'），然后基于TensorFlow搭建卷积神经网络算法模型，通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面，实现用户上传一张蔬菜图片识别其名称。

子午s

213 0 0

基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型

子午s

|

4月前

|

机器学习/深度学习人工智能算法

【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型

车辆车型识别，使用Python作为主要编程语言，通过收集多种车辆车型图像数据集，然后基于TensorFlow搭建卷积网络算法模型，并对数据集进行训练，最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面，实现用户上传一张车辆图片识别其类型。

子午s

178 0 0

【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型

子午s

|

6月前

|

机器学习/深度学习人工智能算法

鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别

鸟类识别系统。本系统采用Python作为主要开发语言，通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型，然后进行模型的迭代训练，得到一个识别精度较高的模型，然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面，实现用户上传一张鸟类图像，识别其名称。

子午s

180 12 12

鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别

wljslmz

|

5月前

|

安全 Linux KVM

开源的虚拟机软件QEMU 9.1发布！带来了增强的ARM和RISC-V支持和安全更新。

【10月更文挑战第12天】

wljslmz

629 0 0

开源的虚拟机软件QEMU 9.1发布！带来了增强的ARM和RISC-V支持和安全更新。

量子位

热门文章

最新文章

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

阿里云企业级ARM计算规格族简介：特点、场景与价格参考

Windows 11 24H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 2 月更新)

飞天技术沙龙回顾：业务创新新选择，倚天 Arm 架构深入探讨

【Azure 环境】部署ARM Linked Template时候 Blob SAS Token不能正常工作

基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

深度学习工具和框架详细指南：PyTorch、TensorFlow、Keras

基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

如何在Ubuntu上安装TensorFlow 24.04

如何在Ubuntu上安装TensorFlow 24.04

基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

深度学习工具和框架详细指南：PyTorch、TensorFlow、Keras

基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

TensorFlow，一款由谷歌开发的开源深度学习框架，详细讲解了使用 TensorFlow 构建深度学习模型的步骤

基于TensorFlow的深度学习模型训练与优化实战

利用TensorFlow实现简单的图像分类模型

基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络

相关课程

更多

达摩院智能语音交互 - 人机对话技术浅析

深度学习框架TensorFlow入门

达摩院智能语音交互 - 声纹识别技术

阿里巴巴智能语音交互技术与应用

达摩院智能语音交互 - 语音识别技术

达摩院智能语音交互 - 语音合成技术

相关电子书

更多

使用TensorFlow搭建智能开发系统自动生成App UI

从零到一：IOS平台TensorFlow入门及应用详解

从零到一：IOS平台TensorFlow入门及应用详解（附源

相关实验场景

更多

在Anolis OS 8上部署生产可用的DeepSeek推理服务

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

在云上部署ChatGLM2-6B大模型（GPU版）

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

下一篇

通义万相2.1视频/图像模型新升级！可在阿里云百炼直接体验