现在,Qwen2-Audio 可以更方便地在端侧硬件上部署使用啦!
我们与 NexaAI 达成合作,通过 Nexa SDK,将 Qwen2-Audio 模型引入到更多端侧设备上,顺滑实现语音处理与理解、多模式聊天、音频/音乐分析和识别、翻译等诸多功能。
Qwen2-Audio 是一个70亿参数量 SOTA 多模态模型,可处理音频和文本输入。它无需 ASR 模块即可实现语音交互,提供音频分析功能,并支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
NexaAI 还上架了多个 Qwen2-Audio 量化版本,总有一款完美适配你的端侧设备!赶快来体验吧!
只需两步,将Qwen2-Audio引入边缘设备
首先,安装 Nexa SDK
(更多安装方式参考:https://github.com/NexaAI/nexa-sdk?tab=readme-ov-file#install-option-1-executable-installer)
curl -fsSL https://public-storage.nexa4ai.com/install.sh | sh
然后,运行 Qwen2-Audio 模型
nexa run qwen2audio
或者运行的同时支持 Streamlit 本地 WebUI
nexa run qwen2audio -st
将音频文件存储在终端中(或在 Linux 上输入文件路径)。将文本提示以及语音文件地址直接输入模型。
让我们看看效果吧
- 语音处理与理解
多模式聊天
why do you think cat sleep so much?
- 音频分析与识别
- 音乐分析和识别
- 翻译
额外说明
💻 默认的 q4_K_M 版本需要 4.2GB 的 RAM。
下图列出了在您的设备上运行 Qwen2-Audio 需要多少 RAM
🎵 为了获得最佳性能,请使用 16kHz 音频格式。支持其他音频格式和采样率,并将自动转换为所需格式。
One more thing
再向大家透露一个好消息,据说服务器部署和 Python 接口也在路上了,请大家关注Nexa SDK(https://github.com/NexaAI/nexa-sdk)。
如果你想探索更多音频语言模型用例,也可查看 Qwen 的博客和 Github: