modelscope-funasr怎么输出sentences信息?

modelscope-funasr “Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx”怎么可以像“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”一样输出sentences信息
1acfffb7be322f56a82d2c27b4b80eda.png
219571e4734aabbef25a95c51b2740df.png

展开
收起
嘟嘟嘟嘟嘟嘟 2024-01-05 06:36:02 376 分享 版权
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    ModelScope的FunASR模型默认会输出识别结果的详细信息,包括每个词的开始时间、结束时间和置信度等。如果你想要像“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”一样只输出sentences信息,你需要修改FunASR的配置文件。

    在FunASR的配置文件中,有一个参数叫做"beam_size",这个参数决定了解码器在进行解码时使用的语言模型的大小。当"beam_size"设置为1时,解码器只会选择概率最高的词作为识别结果,这样就可以得到类似于“Paraformer语音识别-中文-通用-16k-离线-large-长音频版”的输出结果。

    需要注意的是,将"beam_size"设置为1可能会降低识别的准确性,因为解码器在选择识别结果时不再考虑其他可能的词。

    2024-01-06 13:22:28
    赞同 展开评论
  • 要将modelscope-funasr的输出从Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx更改为像Paraformer语音识别-中文-通用-16k-离线-large-长音频版一样输出sentences信息,您可以尝试以下步骤:

    1. 首先,确保您已经安装了modelscope-funasr库。如果没有安装,可以使用以下命令进行安装:
    pip install modelscope-funasr
    
    1. 然后,您可以使用以下代码示例来加载模型并进行推理:
    from modelscope.funasr import FunAsrModel
    import torch
    
    # 加载模型
    model = FunAsrModel.from_pretrained("modelscope/funasr-paraformer-chinese-common-16k-offline-large-long")
    
    # 准备输入数据
    input_audio = torch.randn(1, 16000)  # 假设输入是一个随机音频张量
    
    # 进行推理
    output = model(input_audio)
    
    # 获取sentences信息
    sentences = output["sentences"]
    

    在这个例子中,我们首先从预训练模型中加载了FunAsrModel,然后使用一个随机生成的音频张量作为输入进行推理。最后,我们从输出中提取了sentences信息。

    2024-01-05 09:31:09
    赞同 展开评论
  • 其实github上新的代码已经支持了, https://github.com/alibaba-damo-academy/FunASR/tree/main/runtime
    9b7a48b643d0aefe5aa4f6a3a4292a3e.png
    看这个
    此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-05 08:31:35
    赞同 展开评论

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理