备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr语者分离的好像没有onnx版本的模型，只有pt模型，该如何使用？

modelscope-funasr语者分离的好像没有onnx版本的模型，只有pt模型，请问该如何使用？

展开

收起

三分钟热度的鱼 2024-04-17 20:53:39 245 版权

阿里云 AI 助理回答

在ModelScope-FunASR中，目前语者分离（Speaker Diarization）相关的模型可能仅提供PyTorch（.pt）格式的模型文件，而没有ONNX版本的模型。如果您需要使用这些模型，可以按照以下步骤操作：

1. 安装ModelScope-FunASR环境

首先，确保您已经正确安装了ModelScope-FunASR的相关依赖和工具包。以下是安装步骤：

克隆代码仓库

git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR

安装依赖

pip install -r requirements.txt

安装FunASR工具包

pip install funasr[clip]

验证安装是否成功

运行以下命令验证安装是否成功：

python -c "import funasr.utils.cli_utils; funasr.utils.cli_utils.print_info()"

如果安装成功，您将看到一条消息，提示FunASR已正确安装。

2. 加载和使用PyTorch模型

由于当前语者分离模型仅提供PyTorch格式（.pt），您可以直接使用PyTorch框架加载并运行模型。以下是具体操作步骤：

加载模型

通过funasr提供的API加载语者分离模型。例如：

from funasr import AutoModel

# 指定模型路径或名称
model = AutoModel(model="damo/speech_campplus_speaker-diarization_common")

# 输入音频文件路径
audio_file = "path/to/your/audio.wav"

# 运行推理
result = model(audio_file)
print(result)

参数说明

model: 指定语者分离模型的名称或路径。您可以在ModelScope平台上查找相关模型ID。
audio_file: 输入音频文件的路径，支持常见的音频格式（如.wav、.mp3等）。

3. 转换为ONNX（可选）

如果您希望将PyTorch模型转换为ONNX格式以优化推理性能，可以尝试以下方法：

转换步骤

加载PyTorch模型
使用torch加载语者分离模型的.pt文件。

import torch
from funasr import AutoModel

# 加载模型
model = AutoModel(model="damo/speech_campplus_speaker-diarization_common")

定义输入张量
根据模型的输入要求，构造一个示例输入张量。
```
dummy_input = torch.randn(1, 16000)  # 示例输入，假设采样率为16kHz
```

导出为ONNX格式
使用torch.onnx.export将模型导出为ONNX格式。

torch.onnx.export(
   model,
   dummy_input,
   "speaker_diarization_model.onnx",
   input_names=["input"],
   output_names=["output"],
   dynamic_axes={"input": {0: "batch_size"}, "output": {0: "batch_size"}},
   opset_version=11
)

验证ONNX模型
使用ONNX Runtime验证导出的模型是否正常工作。

import onnxruntime as ort
import numpy as np

# 加载ONNX模型
session = ort.InferenceSession("speaker_diarization_model.onnx")

# 构造输入数据
input_data = np.random.randn(1, 16000).astype(np.float32)

# 推理
outputs = session.run(None, {"input": input_data})
print(outputs)

4. 注意事项

模型兼容性：并非所有PyTorch模型都能直接转换为ONNX格式，尤其是涉及动态计算图或复杂操作的模型。如果转换失败，请参考PyTorch官方文档或联系ModelScope团队获取支持。
硬件加速：如果您计划在GPU上运行模型，请确保您的环境已正确配置CUDA和cuDNN，并安装支持GPU的PyTorch版本。
性能优化：ONNX模型通常可以通过ONNX Runtime进行优化，建议在实际部署前测试其性能表现。

5. 总结

目前ModelScope-FunASR的语者分离模型主要以PyTorch格式提供，您可以直接使用funasr工具包加载和运行模型。如果需要ONNX格式，可以尝试手动转换，但需注意模型兼容性和性能优化问题。

如有进一步问题，请随时联系！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

dataset的版本问题导致与modelscope不兼容

4617

2

0

modelscope-funasr从0开始部署并运行C++版本的服务端的详细步骤。

890

3

0

这个错是modelscope-funasr版本不对吗？对应的是什么版本啊？

174

1

0

在modelscope上git上这个语句报错，我是CPU版本，怎么回事？

150

1

0

在modelscope-funasr中SeACo-Paraformer模型有导出onnx版吗？

193

0

0

ModelScope是不是需要transformers的版本是>=4.43？

205

1

0

modelscope-funasr内网环境（连不了公网）下，自己下载了模型权重的pt文件，怎么使用？

162

0

0

modelscope-funasr使用gpu转写服务部署指南，asr模型还是会需要导出为onnx吗？

149

0

0

modelscope-funasr这个是torch的版本的问题吗？

97

0

0

在modelscope-funasr，离线和在线的版本在处理音频时有什么区别吗？

222

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

“日志别再只会翻了，教它自己说话”——聊聊用 NLP 玩转日志分析

《10分钟开发电商页！CodeBuddy自然语言转代码实测：程序员效率革命》

Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用（229）

从“写SQL”到“聊数据”：NL2SQL如何用自然语言解锁数据库？

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

热门讨论

热门文章

部署funasr-sdk-cpu-0.4.7，无法切换vad为8k模型，提示不存在v2.0.6版本

modelscope-funasr如何释放显存呢？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr 热词如何设置？

练的pth模型文件，怎么转成bin文件？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr的python websocket怎么实现多用户并发啊？

modelscope-funasr有说话人分离功能吗？

Distributed package doesn't have NCCL built in

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

LLM 大模型学习必知必会系列(二)：提示词工程-Prompt Engineering 以及实战闯关

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

展开全部

还有其他疑问?