开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr的微调数据集的text需要添加空格或分词处理么?

modelscope-funasr的微调数据集的text需要添加空格或分词处理么?

展开
收起
三分钟热度的鱼 2024-03-06 20:44:16 58 0
1 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    不需要添加空格或进行分词处理

    在使用ModelScope-FunASR进行微调时,数据集的准备是一个关键步骤。根据FunASR的官方文档和相关代码,微调数据集的文本文件(如train/textvalidation/text)通常需要是未经过多处理的原始文本,这意味着不需要在文本中添加空格或进行分词处理。这是因为模型已经内置了对文本的处理能力,可以在训练过程中自动学习文本的特征。

    在准备数据集时,您需要确保数据集目录包含必要的文件,例如train/wav.scptrain/text,以及validation/wav.scpvalidation/text。这些文件分别对应于训练集和验证集的音频文件和对应的文本文件。文本文件中的每一行都应该与相应的音频文件相匹配,并且包含该音频文件的转录文本。

    此外,如果您的数据集大小超过1000小时,应该将dataset_type设置为large,否则设置为small。这个参数会影响模型的训练配置和优化策略。

    综上所述,在准备ModelScope-FunASR的微调数据集时,文本文件应保持原始状态,不需要添加空格或进行分词处理。同时,确保数据集的组织结构符合要求,并且根据数据集的大小设置正确的dataset_type。这样,模型就能够在训练过程中自动适应并学习文本数据的特征。

    2024-03-08 19:34:54
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载