MLPerf基准:阿里RISC-V处理器语音唤醒推理技术方案

简介: 4月7日,AI基准测试 MLPerf™ Tiny Benchmark结果公布,阿里巴巴在嵌入式语音唤醒场景中提交的方案较好地平衡了推理任务中的准确率与延时,保证准确率90.7%情况下耗时最短。本文介绍该方案在NN Compiler和RISC-V指令集等软硬一体加速技术方面的实践。

|| 基准测试情况

MLPerf Tiny Benchmark是针对IoT领域机器学习任务软硬件性能和算法优化能力的测试,自2018年由图灵奖得主David Patterson发起后,得到了各大云计算厂商、科研机构和高校的支持和参与。有别于Datacenter等大规模、高算力场景,Tiny方向聚焦于低功耗、高性价比的AIoT应用,包含语音唤醒等4个典型AI推理任务。目前 MLPerf™ Tiny 已经开展了两期(v0.5、v0.7)。

官方链接:

https://mlcommons.org/en/inference-tiny-07/

阿里方案结果代码:

https://github.com/mlcommons/tiny_results_v0.7/tree/main/open/Alibaba/code

(注:达摩院语音实验室本次以RISC-V芯片为硬件载体参与了语音唤醒推理任务)


|| 参赛情况统计

MLPerf™ Tiny 包含了四个不同的基准,提交者可以自行选择提交全部或部分基准的性能。以下是根据厂商、硬件及基准分类的结果统计。

image.png

上表中“厂商”代表提交机构,“系统”是指一套硬件和软件共同组成的推理和部署系统。每个“系统”可以包含4个基准的部分或全部结果数据。本次 v0.7 结果与 v0.5 相比,参与厂商数量、系统多样性和数据点数目均有明显增加。


|| 语音唤醒推理加速方案

语音交互前端信号处理技术和方案研发是达摩院语音实验室核心技术方向之一,主要采用数理建模和数据驱动等方法论,具体包含基于空间滤波的多通道语音分离/增强(麦克风阵列技术)、基于深度学习的语音增强/回声抵消(AI降噪)、信号处理和统计建模(唤醒/识别)的端到端联合优化和音视频融合多模态信号处理等技术。

在此次基准测试中,达摩院语音实验室结合多年来在语音AI技术的全面积累,贡献了在语音唤醒KWS推理任务上「芯片-编译器-算法」全链路嵌入式AI技术的全栈工程实践。

首先,找到合适嵌入式应用的深度神经网络模型规模。借助阿里云震旦SinianML模型压缩技术进行多方位的优化,通过对模型施加动态的约束和诱导,调整模型的权重分布,促使模型的表达能力紧密汇聚在部分重要的参数之中,同时结合蒸馏、弹性伸缩等手段,实现在无损或极小精度损失的情况下,较大程度减小模型的计算量,挖掘模型的极限表达能力,从源头减少模型的计算复杂度。经过此轮优化,准确率保持不变,参数量下降了69.8%,为计算量优化打下扎实的基础。模型参数压缩结果如下:

image.png

 

其次,通过图优化等编译技术优化模型推理静态图通过平头哥模型部署工具集HHB(Heterogeneous Honey Badger)将模型生成C代码形式的图结构,HHB 基于 TVM 开源框架,支持 Caffe, TensorFlow,ONNX和 TFLite 等框架导出的网络模型,将其统一转换为统一的中间表达式,并在此基础上完成神经网络模型的图优化工作。具体细节可以参考:https://gitee.com/hhb-tools

最后,结合语音唤醒推理优化的算法领域知识,采用达摩院语音实验室自研嵌入式信号处理和神经网络加速框架和平头哥CSI-NN2汇编函数库,进一步提升模型推理过程中的存储访问效率和RISC-V处理器向量计算能力。硬件依赖的图优化和指令集加速等优化技术逐步接近硬件底层,优化结果依赖于处理器本身的设计、开发者对算法和芯片架构的深入理解。经过细致的调优,我们取得的最终加速结果如下:

image.gif

image.png


|| 技术应用场景

在语音AI场景,达摩院语音实验室联合平头哥等部门,打造基于RISC-V玄铁C906核的语音交互AIoT模组,服务于天猫精灵等内外部客户,为音箱、售票机、扫地机、车载和面板等品类产品插上智能化的翅膀,让用户实现「动口不动手」的便捷生活。

本次测试中,达摩院语音实验室的软硬一体联合优化技术,让回声消除、盲源分离、语音降噪和语音唤醒等高复杂度端侧语音AI前沿算法,在资源极致严苛的嵌入式芯片上得以实现,算法内存开销低至1M字节,运行功耗低于100mW,从而可以为客户整机降低一半以上的模组成本,并依然保持高性能的算法体验。

语音交互 AIoT 模组作为AI技术「被集成」的典型案例,结合开放的玄铁RISCV处理器生态,面向自然人机交互和沉浸式人人通信应用,将为更多的智能设备带来低功耗和高性价比的AI能力。

参考资料:

MLPerf Tiny Benchmark

https://doi.org/10.48550/arXiv.2106.07597

https://mlcommons.org/en/news/mlperf-tiny-v05/

https://www.163.com/dy/article/GQ9VV29O0511DSSR.html

https://blogs.nvidia.com/blog/2019/11/06/ai-inference-mlperf-benchmarks/

目录
相关文章
|
10月前
|
人工智能 自然语言处理 测试技术
英伟达最强通用大模型Nemotron-4登场
【2月更文挑战第13天】英伟达最强通用大模型Nemotron-4登场
213 2
英伟达最强通用大模型Nemotron-4登场
|
5月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
6月前
|
算法 测试技术 AI芯片
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。
357 10
|
10月前
|
人工智能 文字识别 并行计算
面壁推出超强端侧多模态模型,推理仅需8G显存!
面壁小钢炮 MiniCPM 系列,再次推出超强端侧多模态模型 MiniCPM-Llama3-V 2.5,且支持 30+ 多种语言
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1849 0
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
机器学习/深度学习 人工智能 编解码
双芯片四芯粒互联,寒武纪发布AI训练卡MLU370-X8:性能超越RTX
双芯片四芯粒互联,寒武纪发布AI训练卡MLU370-X8:性能超越RTX
727 0
双芯片四芯粒互联,寒武纪发布AI训练卡MLU370-X8:性能超越RTX
|
机器学习/深度学习 人工智能 安全
新至强训练推理增效十倍,英特尔CPU加速AI更上一层楼
英特尔在自己最擅长的 CPU 上完成了一次 AI 计算的革新。
348 0
新至强训练推理增效十倍,英特尔CPU加速AI更上一层楼
|
机器学习/深度学习 存储 人工智能
如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化
Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中,来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速,介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等优化方法。
1651 0
如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化
|
机器学习/深度学习 人工智能 弹性计算
MLPerf基准:阿里RISC-V处理器语音唤醒推理技术方案
4月7日,AI基准测试 MLPerf™ Tiny Benchmark结果公布,阿里巴巴在嵌入式语音唤醒场景中提交的方案较好地平衡了推理任务中的准确率与延时,保证准确率90.7%情况下耗时最短。
335 0
MLPerf基准:阿里RISC-V处理器语音唤醒推理技术方案