开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr还有两万多条数据是怎么被过滤掉的?

在做微调语音识别模型的时候,max_token_length设置为3000,打印出的log里面显示:total_num of samplers: 157112, ../../../data/list/train.jsonl,这个总的样本数是这么计算的:157112=每轮的总step GPU个数 batch,现在有一个问题是我的总样本数是178460,而且每条音频不超过30秒,我也已经把max_token_length设置为6000了,max_source_length和max_target_length也设置为3000了,结果微调的时候总样本数还是157112条,modelscope-funasr还有两万多条数据是怎么被过滤掉的?

展开
收起
三分钟热度的鱼 2024-05-29 19:30:38 44 0
1 条回答
写回答
取消 提交回答

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载