魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

简介: 通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)

继 魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战 后,紧锣密鼓安排上Qwen3-ASR 的实战教程。

Qwen3-ASR 系列模型也是通义千问团队在春节前发布的音频理解方向最新成果 ,包含 1.7B 和 0.6B 两个版本。作为 Qwen 语音家族的最新成员,它在多语言识别和处理复杂声学环境方面展现了卓越的性能。



开源资源:

  • Qwen3-ASR官方仓库: https://github.com/QwenLM/Qwen3-ASR
  • 魔搭社区地址:https://modelscope.cn/collections/Qwen/Qwen3-ASR
  • OpenVINO™官方文档: https://docs.openvino.ai/
  • Notebooks: https://modelscope.cn/gallery/Cherrytest/31572716-e08a-47b8-bf58-e3f81dd63f41
  • Qwen3-ASR技术论文: https://modelscope.cn/papers/2601.21337


模型特性

  • All-in-one(全能型):支持52 种语言和方言的语种识别(LID)与自动语音识别(ASR),包括 30 种语言、22 种中国方言以及来自多个国家和地区的英语口音。



  • Excellent and Fast(卓越且高效):在复杂声学环境和挑战性文本模式下保持高鲁棒性。1.7B 版本在开源 ASR 模型中达到了 SOTA 水平;而 0.6B 版本在保证精度的同时,在 128 并发下实现了2000 倍吞吐量,支持流式与离线统一推理及长音频转写。
  • 核心优势:利用大规模语音训练数据和 Qwen3-Omni 基础模型的强大音频理解能力,在多项公开和内部基准测试中表现强劲。


模型部署实战  

魔搭社区和 Intel® OpenVINO™ 工具套件合作,通过原生转换方式在 Intel 平台上实现 Qwen3-ASR 的极致加速。

第一步:环境准备

为了确保与 Qwen3-ASR 架构兼容,我们需要安装特定版本的依赖库并克隆官方仓库。

# 1. 基础环境安装(要求 OpenVINO >= 2025.4)
pip install "openvino>=2025.4.0"
pip install "gradio>=4.0"
pip install qwen-asr
# 2. 克隆并安装 Qwen3-ASR 官方代码库
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
cd ..
# 3. 安装OpenVINO相关依赖
!git clone https://github.com/openvino-dev-samples/openvino_notebooks.git
%cd openvino_notebooks
!git checkout 69b0f57


第二步:模型下载与转换

OpenVINO™ IR (Intermediate Representation)是OpenVINO™的中间表示格式,针对推理进行了深度优化。Qwen3-ASR模型包含4个子模块,需要分别转换:

1. Audio Conv Model (openvino_thinker_audio_model.xml): 音频特征提取的Conv2D前端

2. Audio Encoder Model (openvino_thinker_audio_encoder_model.xml): Transformer编码器层

3. Embedding Model (openvino_thinker_embedding_model.xml): 文本token嵌入层

4. Language Model (openvino_thinker_language_model.xml): 主LLM解码器,支持KV-cache


模型下载

下载命令:

modelscope download --model Qwen/Qwen3-ASR-0.6B


使用OpenVINO提供的helper函数进行转换:

from pathlib import Path
from qwen_3_asr_helper import convert_qwen3_asr_model
# 配置参数
model_id = "Your_PATH/Qwen3-ASR-0.6B"
model_name = model_id.split("/")[-1]
ov_model_dir = Path(f"{model_name}-OV")
# 执行转换:将 PyTorch 模型导出为 OpenVINO IR 格式
# 如果需要量化,可以在 quantization_config 中配置 NNCF 参数
print(f"🚀 正在转换 Qwen3-ASR 模型...")
convert_qwen3_asr_model(
    model_id=model_id,
    output_dir=ov_model_dir,
    quantization_config=None 
)
print(f"✅ 转换完成,模型保存至: {ov_model_dir}")


也可以将model_id通过以下方式替换成原始模型的本地路径进行转换:

convert_qwen3_asr_model(
    model_id=local_model_dir,
    output_dir=ov_model_dir,
    quantization_config=None, # 可选:设置 NNCF 配置进行 INT8 量化
    use_local_dir=True,# 可选:设置使用本地模型
)


第三步:模型部署与推理

在部署阶段,使用 OVQwen3ASRModel 加载转换后的组件。该类封装了 OpenVINO™ 推理引擎,并针对 Intel 硬件(如 CPU/GPU/NPU)进行了优化。

1. 基础推理示例

from qwen_3_asr_helper import OVQwen3ASRModel
# 1. 初始化 OpenVINO 模型
device = "CPU" # 可改为 "GPU"
ov_model = OVQwen3ASRModel.from_pretrained(
    model_dir=str(ov_model_dir),
    device=device,
    max_inference_batch_size=32
)
# 2. 准备音频推理
# 官方示例音频:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav
audio_path = "asr_en.wav" 
print("🎙️ 正在进行语音识别...")
results = ov_model.transcribe(
    audio=audio_path,
    language=None # 自动检测语种
)
# 3. 输出结果
print(f"【检测语种】: {results[0].language}")
print(f"【识别文本】: {results[0].text}")


输出示例:

Detected Language: English Transcription: Oh yeah, yeah, he wasn't that bad when I started listening to him. But his solo music didn't do overly well, but he did very well when started writing for other people.


2. 搭建交互式 Demo

借助 OpenVINO™ Notebooks 提供的辅助工具,几行代码即可启动一个支持声音克隆功能的 Web 界面。

from gradio_helper import make_demo
# 创建并启动 Gradio 演示界面
demo = make_demo(ov_model, example_dir=None)
demo.launch()


通过 OpenVINO™ 的原生转换方案,成功地在 Intel 平台上部署了最新的 Qwen3-ASR 模型。这种方式不仅保留了官方模型的完整能力,更通过 OpenVINO™ 的图优化技术大幅提升了 0.6B 和 1.7B 模型的推理效率,为边缘侧的高性能语音应用提供了坚实基础。


点击即可跳转模型合集:

https://modelscope.cn/collections/Qwen/Qwen3-ASR

目录
相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32714 80
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17766 21
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36697 21
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24772 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36678 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29850 52

热门文章

最新文章

下一篇
开通oss服务