modelscope-funasr这两个字段是怎么定义的?

5dfa97d603a5b316b1bb6e6e39295a4f.png
modelscope-funasr这两个字段是怎么定义的?到时候文档帮忙说明一下,要是能有对应的脚本就更好了

展开
收起
嘟嘟嘟嘟嘟嘟 2024-01-05 06:40:37 101 分享 版权
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在ModelScope中,modelscope-funasr是一个用于语音识别的模型,它基于ONNXRuntime框架实现。关于modelscope-funasr的定义和使用方法,可以参考以下文档:

    1. ModelScope官方文档:https://modelscope.cn/docs/
    2. ModelScope FunASR模型介绍:https://modelscope.cn/models/audio_asr/funasr
    3. ModelScope FunASR模型使用说明:https://modelscope.cn/docs/api/audio_asr/funasr#FunASR

    关于source_lentarget_lene_lentarget_len这些字段,它们可能是用于表示不同长度的信息。具体含义需要参考相关文档或者代码中的注释。例如:

    def calculate_length(input_data):
        source_len = len(input_data)
        target_len = len(output_data)
        e_len = some_calculation(input_data, output_data)
        return source_len, target_len, e_len
    
    input_data = [1, 2, 3, 4, 5]
    output_data = [6, 7, 8, 9, 10]
    source_len, target_len, e_len = calculate_length(input_data)
    print("source_len:", source_len)
    print("target_len:", target_len)
    print("e_len:", e_len)
    

    这段代码定义了一个名为calculate_length的函数,用于计算输入数据和输出数据的长度以及一个名为e_len的值。然后,我们使用这个函数计算了两个示例列表的长度,并将结果打印出来。

    2024-01-06 13:22:27
    赞同 展开评论
    1. source_len:这个字段可能表示输入源文本的长度。在语音识别任务中,输入源文本通常是一段音频信号。

    2. target_len:这个字段可能表示目标文本(即识别出的文本)的长度。在语音识别任务中,目标文本是通过对音频信号进行解码得到的。

    3. e_len:这个字段可能表示编码器(encoder)的输出长度。编码器将输入源文本转换为一个固定长度的向量表示。

    4. target_len:这个字段可能表示目标文本的长度。在语音识别任务中,目标文本是通过对音频信号进行解码得到的。

    2024-01-05 09:31:26
    赞同 展开评论
  • 其实这里不需要严格,仅仅只是用来组batch策略,提高训练速度用的,以及过滤长音频句子,不影响收敛的。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-05 08:32:16
    赞同 展开评论

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

还有其他疑问?
咨询AI助理