文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr的微调数据集的text需要添加空格或分词处理么？

modelscope-funasr的微调数据集的text需要添加空格或分词处理么？

展开

收起

三分钟热度的鱼 2024-03-06 20:44:16 195 版权

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

不需要添加空格或进行分词处理。

在使用ModelScope-FunASR进行微调时，数据集的准备是一个关键步骤。根据FunASR的官方文档和相关代码，微调数据集的文本文件（如train/text和validation/text）通常需要是未经过多处理的原始文本，这意味着不需要在文本中添加空格或进行分词处理。这是因为模型已经内置了对文本的处理能力，可以在训练过程中自动学习文本的特征。

在准备数据集时，您需要确保数据集目录包含必要的文件，例如train/wav.scp和train/text，以及validation/wav.scp和validation/text。这些文件分别对应于训练集和验证集的音频文件和对应的文本文件。文本文件中的每一行都应该与相应的音频文件相匹配，并且包含该音频文件的转录文本。

此外，如果您的数据集大小超过1000小时，应该将dataset_type设置为large，否则设置为small。这个参数会影响模型的训练配置和优化策略。

综上所述，在准备ModelScope-FunASR的微调数据集时，文本文件应保持原始状态，不需要添加空格或进行分词处理。同时，确保数据集的组织结构符合要求，并且根据数据集的大小设置正确的dataset_type。这样，模型就能够在训练过程中自动适应并学习文本数据的特征。

2024-03-08 19:34:54

赞同展开评论

相关问答

对modelscope的实体命名预训练模型进行微调上出现错误

382

1

0

通过modelscope环境搭建LLama Factory使用 WebUI微调训练，访问页面报错

795

1

0

modelscope-funasr使用微调后，效果不好，如何提高模型准确率？

291

0

0

有没有详细一些的微调modelscope-funasr上模型的教程（非大模型）？

247

0

0

ModelScope里我去微调模型，训练完成的模型会出现以下两种问题，怎么解决？

366

0

0

modelscope这个古诗数据集我要不要把分隔符定义为'\n'?

104

1

0

我可否先在网上下载数据集，然后替换到modelscope文件里面?

296

1

0

从modelscope下载数据集后很乱？

331

1

0

modelscope-funasr如何进行标点恢复模型的微调训练？

218

1

0

modelscope-funasr使用itn的时候是否需要加载模型呀？

325

0

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

2026 最新版 OpenClaw，Windows 一键安装，高效不拖沓（包含新安装包）

2026 最新版 OpenClaw，Windows 一键安装，高效不拖沓（包含新安装包）

2026 最新版 OpenClaw，Windows 一键安装，高效不拖沓（包含新安装包）

2026 最新版 OpenClaw，Windows 一键安装，高效不拖沓（包含新安装包）

【含新版安装包】零代码纯本地 OpenClaw Windows 安装详细步骤

热门讨论

热门文章

Distributed package doesn't have NCCL built in

modelscope-funasr剪片子提示这个是什么原因？

文本生成，更细致的参数设置，例如生成长度等等，这些有文档吗？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

我尝试用modelscope-funasr调用paraformer报错，怎么解决？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

如何下载llama模型到本地？

pipeline如何设置temperature、top_p参数？

modelscope-funasr的流式vad时报这个错，怎么处理？

展开全部

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

自然语言生成代码一键搞定！Codex CLI：OpenAI开源终端AI编程助手，代码重构+测试全自动

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

【开源】IntentOrch：意图驱动的MCP编排引擎 - 自然语言描述需求，AI自动编排MCP工具链执行

展开全部

还有其他疑问?