文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr还有两万多条数据是怎么被过滤掉的？

在做微调语音识别模型的时候，max_token_length设置为3000，打印出的log里面显示：total_num of samplers: 157112, ../../../data/list/train.jsonl，这个总的样本数是这么计算的：157112=每轮的总step GPU个数 batch，现在有一个问题是我的总样本数是178460，而且每条音频不超过30秒，我也已经把max_token_length设置为6000了，max_source_length和max_target_length也设置为3000了，结果微调的时候总样本数还是157112条，modelscope-funasr还有两万多条数据是怎么被过滤掉的？

展开

收起

三分钟热度的鱼 2024-05-29 19:30:38 244 版权

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

过滤逻辑在这里：https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/datasets/audio_datasets/index_ds.py#L97
注意这里，是音频+文本此回答整理自钉群“modelscope-funasr社区交流”

2024-05-29 21:35:21

赞同展开评论

相关问答

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

546

0

0

modelscope-funasr实时识别，发送的流数据，一次喂好长的数据过去比较好？

193

0

0

modelscope-funasr中如果用10小时数据做微调， 2张T4的卡，大概耗时多久？

309

1

0

在modelscope-funasr中请问sensevoice微调时，训练数据怎么准备？

383

0

0

ModelScope中，微调参数里面有可能会导致模型回复中断的参数或者是数据里面没有长文本的数据？

253

1

0

modelscope用哪个脚本有新的报错是关于数据没有放在gpu上的？

222

1

0

modelscope的训练数据的text一般也都是几百长度的，怎么解决？

225

1

0

modelscope-funasr哪里有开源的菲律宾数据？

182

0

0

modelscope开源的菲律宾数据写的是522个小时但是下载下来为什么只有几条？

194

0

0

请问modelscope开源的菲律宾数据写的是522个小时但是下载下来为什么只有几条？

162

0

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

阿里云服务器专属活动：轻量应用服务器与云服务器ECS优惠政策及活动价格参考

听懂、接住、说得自然：一通好的智能外呼到底需要什么？

2026年阿里云GPU云服务器配置价格表及性能测评

Ollama 本地大模型外网安全访问最佳实践：ZeroNews 内网穿透完整方案

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

多模态数据信息提取

分析 Agent 实现一键 AI 数据洞察

高效存储和处理多媒体数据

热门讨论

热门文章

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

如何修改通义千问的system prompt，以修改自定义名字

modelscope-funasr这个报错怎么处理？

modelscope-funasr 热词如何设置？

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

使用modelscope、Qwen1.8B-chat 模型推理时报错编码错误

下载报错ssl认证失败

调用dashscope paraformer的实时语音识别API，识别结果混乱

展开全部

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

展开全部

还有其他疑问?