魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

简介: 通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)

继 魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战 后,紧锣密鼓安排上Qwen3-ASR 的实战教程。

Qwen3-ASR 系列模型也是通义千问团队在春节前发布的音频理解方向最新成果 ,包含 1.7B 和 0.6B 两个版本。作为 Qwen 语音家族的最新成员,它在多语言识别和处理复杂声学环境方面展现了卓越的性能。



开源资源:

  • Qwen3-ASR官方仓库: https://github.com/QwenLM/Qwen3-ASR
  • 魔搭社区地址:https://modelscope.cn/collections/Qwen/Qwen3-ASR
  • OpenVINO™官方文档: https://docs.openvino.ai/
  • Notebooks: https://modelscope.cn/gallery/Cherrytest/31572716-e08a-47b8-bf58-e3f81dd63f41
  • Qwen3-ASR技术论文: https://modelscope.cn/papers/2601.21337


模型特性

  • All-in-one(全能型):支持52 种语言和方言的语种识别(LID)与自动语音识别(ASR),包括 30 种语言、22 种中国方言以及来自多个国家和地区的英语口音。



  • Excellent and Fast(卓越且高效):在复杂声学环境和挑战性文本模式下保持高鲁棒性。1.7B 版本在开源 ASR 模型中达到了 SOTA 水平;而 0.6B 版本在保证精度的同时,在 128 并发下实现了2000 倍吞吐量,支持流式与离线统一推理及长音频转写。
  • 核心优势:利用大规模语音训练数据和 Qwen3-Omni 基础模型的强大音频理解能力,在多项公开和内部基准测试中表现强劲。


模型部署实战  

魔搭社区和 Intel® OpenVINO™ 工具套件合作,通过原生转换方式在 Intel 平台上实现 Qwen3-ASR 的极致加速。

第一步:环境准备

为了确保与 Qwen3-ASR 架构兼容,我们需要安装特定版本的依赖库并克隆官方仓库。

# 1. 基础环境安装(要求 OpenVINO >= 2025.4)
pip install "openvino>=2025.4.0"
pip install "gradio>=4.0"
pip install qwen-asr
# 2. 克隆并安装 Qwen3-ASR 官方代码库
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
cd ..
# 3. 安装OpenVINO相关依赖
!git clone https://github.com/openvino-dev-samples/openvino_notebooks.git
%cd openvino_notebooks
!git checkout 69b0f57


第二步:模型下载与转换

OpenVINO™ IR (Intermediate Representation)是OpenVINO™的中间表示格式,针对推理进行了深度优化。Qwen3-ASR模型包含4个子模块,需要分别转换:

1. Audio Conv Model (openvino_thinker_audio_model.xml): 音频特征提取的Conv2D前端

2. Audio Encoder Model (openvino_thinker_audio_encoder_model.xml): Transformer编码器层

3. Embedding Model (openvino_thinker_embedding_model.xml): 文本token嵌入层

4. Language Model (openvino_thinker_language_model.xml): 主LLM解码器,支持KV-cache


模型下载

下载命令:

modelscope download --model Qwen/Qwen3-ASR-0.6B


使用OpenVINO提供的helper函数进行转换:

from pathlib import Path
from qwen_3_asr_helper import convert_qwen3_asr_model
# 配置参数
model_id = "Your_PATH/Qwen3-ASR-0.6B"
model_name = model_id.split("/")[-1]
ov_model_dir = Path(f"{model_name}-OV")
# 执行转换:将 PyTorch 模型导出为 OpenVINO IR 格式
# 如果需要量化,可以在 quantization_config 中配置 NNCF 参数
print(f"🚀 正在转换 Qwen3-ASR 模型...")
convert_qwen3_asr_model(
    model_id=model_id,
    output_dir=ov_model_dir,
    quantization_config=None 
)
print(f"✅ 转换完成,模型保存至: {ov_model_dir}")


也可以将model_id通过以下方式替换成原始模型的本地路径进行转换:

convert_qwen3_asr_model(
    model_id=local_model_dir,
    output_dir=ov_model_dir,
    quantization_config=None, # 可选:设置 NNCF 配置进行 INT8 量化
    use_local_dir=True,# 可选:设置使用本地模型
)


第三步:模型部署与推理

在部署阶段,使用 OVQwen3ASRModel 加载转换后的组件。该类封装了 OpenVINO™ 推理引擎,并针对 Intel 硬件(如 CPU/GPU/NPU)进行了优化。

1. 基础推理示例

from qwen_3_asr_helper import OVQwen3ASRModel
# 1. 初始化 OpenVINO 模型
device = "CPU" # 可改为 "GPU"
ov_model = OVQwen3ASRModel.from_pretrained(
    model_dir=str(ov_model_dir),
    device=device,
    max_inference_batch_size=32
)
# 2. 准备音频推理
# 官方示例音频:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav
audio_path = "asr_en.wav" 
print("🎙️ 正在进行语音识别...")
results = ov_model.transcribe(
    audio=audio_path,
    language=None # 自动检测语种
)
# 3. 输出结果
print(f"【检测语种】: {results[0].language}")
print(f"【识别文本】: {results[0].text}")


输出示例:

Detected Language: English Transcription: Oh yeah, yeah, he wasn't that bad when I started listening to him. But his solo music didn't do overly well, but he did very well when started writing for other people.


2. 搭建交互式 Demo

借助 OpenVINO™ Notebooks 提供的辅助工具,几行代码即可启动一个支持声音克隆功能的 Web 界面。

from gradio_helper import make_demo
# 创建并启动 Gradio 演示界面
demo = make_demo(ov_model, example_dir=None)
demo.launch()


通过 OpenVINO™ 的原生转换方案,成功地在 Intel 平台上部署了最新的 Qwen3-ASR 模型。这种方式不仅保留了官方模型的完整能力,更通过 OpenVINO™ 的图优化技术大幅提升了 0.6B 和 1.7B 模型的推理效率,为边缘侧的高性能语音应用提供了坚实基础。


点击即可跳转模型合集:

https://modelscope.cn/collections/Qwen/Qwen3-ASR

目录
相关文章
|
2月前
|
编解码 自然语言处理 语音技术
魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战
通义千问推出Qwen3-TTS系列开源语音模型,支持中英日韩等10种语言,具备声音克隆、情感适配与高保真端到端合成能力;结合Intel OpenVINO™可在CPU上高效推理,无需GPU,轻松部署于边缘设备。(239字)
847 6
|
2月前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
536 4
|
2月前
|
机器学习/深度学习 JSON 文字识别
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
1610 3
|
2月前
|
机器学习/深度学习 存储 自然语言处理
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
560 4
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
|
2月前
|
人工智能 自然语言处理 JavaScript
Deepseek百万 Token 窗口的极限实践:一位非专业人员使用实录
摘要:此文非技术评测,而是一份关于Deepseek最新百万token窗口的真实工程“长程思考”实录。本人非AI与计算机专业,从事生物医学与心理学工作,人文爱好者。利用十天时间,通过浏览器deepseek云端模型百万token对话窗口,实现了一套从本地环境设置、工具流搭建、数据建库与向量化的整个工程。本文记录了主要的过程与指标。 时间:2026 年 2 月
|
2月前
|
机器学习/深度学习 自然语言处理 API
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
3147 4
Qwen3.5:迈向原生多模态智能体
|
3月前
|
安全 Linux Docker
QWEN3 企业级 Docker 容器化部署指南
QWEN3是通义千问系列最新大模型,支持密集与混合专家架构,覆盖0.6B至235B参数,适用于多场景部署。具备思考与非思考双推理模式,强化复杂任务处理能力,支持100+语言及工具调用。本文档提供企业级Docker部署方案,涵盖环境配置、镜像拉取、安全加固、高可用设计与生产最佳实践,经Ubuntu/CentOS实测验证,端口8080、API路径/v1/chat/completions 100%可用,助力快速落地AI应用。
1599 5
|
2月前
|
机器学习/深度学习 测试技术 API
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
5843 23
|
2月前
|
JSON 自然语言处理 API
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
本文详解OpenAI Whisper语音转文本(ASR)技术,涵盖基础概念、模型选型(tiny至large-v3)、核心参数调优(language/temperature/beam_size等)、代码实战、词级时间戳、批量处理、说话人分离及音频降噪等进阶技巧,助力零基础用户快速上手并精准适配各类场景。
708 7
|
1月前
|
人工智能 自然语言处理 数据可视化
别再用 LangChain 搭 RAG 了:Dify 和 n8n 哪个才是你真正需要的
本文对比LangChain、Dify与n8n在AI工作流构建中的定位差异:LangChain是高自由度但调试成本高的代码框架;Dify专注RAG与对话,开箱即用;n8n擅长跨系统AI自动化。附七牛云模型接入指南与避坑提示。

热门文章

最新文章