NexaAI, 一行命令运行魔搭社区模型,首次在设备上运行 Qwen2-Audio

简介: Qwen2-Audio是一个 70亿参数量 SOTA 多模态模型,可处理音频和文本输入。

音频语言模型正在获得显著的关注,但边缘部署选项仍然非常有限。虽然 llama.cpp 和 Ollama 支持文本和视觉模型,但它们目前不支持音频模型。

Qwen2-Audio是一个 70亿参数量 SOTA 多模态模型,可处理音频和文本输入。它无需 ASR 模块即可实现语音交互,提供音频分析功能,并支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

魔搭社区和Nexa SDK合作,一键运行魔搭社区GGUF模型,包括本次发布的Qwen2-Audio的GGUF格式。

Github repo:

https://github.com/NexaAI/nexa-sdk

NexaAI 魔搭模型repo:

https://modelscope.cn/organization/NexaAIDev

01.Nexa SDK:一句话运行魔搭社区模型

使用魔搭社区免费CPU算力使用Nexa一键运行魔搭社区GGUF模型。

首先,安装Nexa SDK

pip install nexaai

一句话运行魔搭社区模型

nexa run -ms Qwen/Qwen2.5-3B-Instruct-GGUF

image.png

02.Nexa SDK:将Qwen2-Audio引入边缘设备

image.png

在魔搭社区的免费Notebook算力上运行Qwen-Audio-7B-GGUF

首先,安装Nexa SDK(更多安装方式参考:https://github.com/NexaAI/nexa-sdk?tab=readme-ov-file#install-option-1-executable-installer

curl -fsSL https://public-storage.nexa4ai.com/install.sh | sh

然后,运行Qwen2-Audio模型

nexa run qwen2audio

或者运行的同时支持Streamlit 本地WebUI

nexa run qwen2audio -st

也可以直接在ModelScope上运行Qwen-Audio-7B-GGUF

nexa run -ms NexaAIDev/Qwen2-Audio-7B-GGUF

将音频文件存储在终端中(或在 Linux 上输入文件路径)。将文本提示以及语音文件地址直接输入模型。

01.快速说明

💻  默认的 q4_K_M 版本需要 4.2GB 的 RAM。

下图列出了在您的设备上运行 Qwen2-Audio 需要多少 RAM

Qwen2-Audio量化版本

模型权重文件

所需RAM

gguf-fp16

14.50 GB

16.80 GB

gguf-q4_0

4.20 GB

4.20 GB

gguf-q8_0

7.70 GB

8.40 GB

gguf-q2_K

2.90 GB

2.10 GB

gguf-q3_K_L

3.90 GB

3.15 GB

gguf-q3_K_M

3.70 GB

3.15 GB

gguf-q3_K_S

3.30 GB

3.15 GB

gguf-q4_1

4.60 GB

4.20 GB

gguf-q4_K_M

4.50 GB

4.20 GB

gguf-q4_K_S

4.30 GB

4.20 GB

gguf-q5_0

5.10 GB

5.25 GB

gguf-q5_1

5.50 GB

5.25 GB

gguf-q5_K_M

5.20 GB

5.28 GB

gguf-q5_K_S

5.10 GB

5.28 GB

gguf-q6_K

5.90 GB

6.30 GB

🎵 为了获得最佳性能,请使用 16kHz.wav音频格式。支持其他音频格式和采样率,并将自动转换为所需格式。

02.使用案例

语音处理与理解

会议录音

image.png

多模式聊天

why do you think cat sleep so much?

image.png

音频分析与识别

键盘打字的声音

image.png

音乐分析和识别

Punk music (loud sound warning)

image.png

翻译

Chinese

image.png

要了解更多用例和模型功能,请查看Qwen的博客和Github:

博客:

https://qwenlm.github.io

Github:

https://github.com/QwenLM/Qwen2-Audio

对于开发人员来说,下一步将是服务器部署和 Python 接口。请关注Nexa SDK以获取更新,并提交您的任何需求。

感谢 Nexa AI 团队。

点击链接阅读原文:https://modelscope.cn/organization/NexaAIDev

相关文章
|
8月前
|
人工智能 缓存 API
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
【2月更文挑战第24天】谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
298 3
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
|
人工智能 并行计算 openCL
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
随着 Llama2 的开源,以及通义千问、百川、智谱等国内大模型的问世,很多用户有了本地部署去尝试大模型的需求,然而硬件的需求阻碍了很多人的尝试,并不是所有人都拥有一块英伟达显卡的,所以 Llama2 问世不久,大神 Andrej Karpathy 的一个 weekend project 爆火——llama2.c。
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
|
2月前
|
开发者 异构计算
现在,一行命令使用Ollama运行任意魔搭GGUF模型
为了让开发者更方便地把这些模型用起来,社区最近支持了Ollama框架和ModelScope平台的链接,通过简单的 ollama run命令,就能直接加载运行ModelScope模型库上的GGUF模型。
|
16天前
|
编解码 自然语言处理 JavaScript
智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景
11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。
|
24天前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
24天前
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本
|
1月前
|
人工智能 API 数据库
Qwen-Agent功能调用实践探索
本文详细解析了Qwen-Agent的核心功能——功能调用,涵盖其定义、工作流程、重要性和实际应用,通过实例展示了如何在Qwen-Agent中利用此功能与外部工具和API互动,扩展AI应用范围。
|
2月前
|
人工智能 JSON 自然语言处理
AppFlow全面支持Qwen2.5开源版无代码调用
Qwen2.5是阿里云推出的大型语言模型,无需编码即可快速体验。该模型基于最新大规模数据集训练,支持超29种语言,显著提升了知识量、编码及数学能力,特别是在指令遵循、长文本生成、结构化数据理解和生成等方面。通过AppFlow,Qwen2.5可轻松集成至钉钉机器人等应用,实现智能化交互。
|
3月前
|
Ubuntu API Python
Chat-TTS chat-tts-ui 实机部署上手测试!Ubuntu服务器实机 2070Super*2 8GB部署全流程
Chat-TTS chat-tts-ui 实机部署上手测试!Ubuntu服务器实机 2070Super*2 8GB部署全流程
98 1
|
5月前
|
Linux 测试技术 API
Ollama+Qwen2,轻松搭建支持函数调用的聊天系统
本文介绍如何通过Ollama结合Qwen2,搭建OpenAI格式的聊天API,并与外部函数结合来拓展模型的更多功能。