modelscope-funasr怎么输出sentences信息？

modelscope-funasr “Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx”怎么可以像“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”一样输出sentences信息

展开

收起

嘟嘟嘟嘟嘟嘟 2024-01-05 06:36:02 387 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

ModelScope的FunASR模型默认会输出识别结果的详细信息，包括每个词的开始时间、结束时间和置信度等。如果你想要像“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”一样只输出sentences信息，你需要修改FunASR的配置文件。

在FunASR的配置文件中，有一个参数叫做"beam_size"，这个参数决定了解码器在进行解码时使用的语言模型的大小。当"beam_size"设置为1时，解码器只会选择概率最高的词作为识别结果，这样就可以得到类似于“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”的输出结果。

需要注意的是，将"beam_size"设置为1可能会降低识别的准确性，因为解码器在选择识别结果时不再考虑其他可能的词。

2024-01-06 13:22:28

赞同展开评论
sunrr
要将modelscope-funasr的输出从Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx更改为像Paraformer语音识别-中文-通用-16k-离线-large-长音频版一样输出sentences信息，您可以尝试以下步骤：
1. 首先，确保您已经安装了modelscope-funasr库。如果没有安装，可以使用以下命令进行安装：
```
pip install modelscope-funasr
```
1. 然后，您可以使用以下代码示例来加载模型并进行推理：
```
from modelscope.funasr import FunAsrModel
import torch

# 加载模型
model = FunAsrModel.from_pretrained("modelscope/funasr-paraformer-chinese-common-16k-offline-large-long")

# 准备输入数据
input_audio = torch.randn(1, 16000)  # 假设输入是一个随机音频张量

# 进行推理
output = model(input_audio)

# 获取sentences信息
sentences = output["sentences"]
```
在这个例子中，我们首先从预训练模型中加载了FunAsrModel，然后使用一个随机生成的音频张量作为输入进行推理。最后，我们从输出中提取了sentences信息。
2024-01-05 09:31:09

赞同展开评论
番茄酱脑袋

其实github上新的代码已经支持了， https://github.com/alibaba-damo-academy/FunASR/tree/main/runtime

看这个
此回答整理自钉群“modelscope-funasr社区交流”

2024-01-05 08:31:35

赞同展开评论

modelscope-funasr怎么输出sentences信息？

ModelScope模型即服务

相关文章

热门讨论

热门文章