文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

在modelscope-funasr不联网训练，如何用Msdataset load本地数据集？

在modelscope-funasr不联网训练，如何用Msdataset load本地数据集？

展开

收起

三分钟热度的鱼 2024-04-17 21:06:34 762 版权

阿里云 AI 助理回答

在ModelScope-FunASR中进行不联网训练时，可以通过MsDataset加载本地数据集。以下是详细的操作步骤和配置说明：

1. 准备本地数据集

确保本地数据集已按照模型所需的格式整理好。通常，FunASR支持的数据格式包括但不限于： - 音频文件：如.wav或.flac格式。 - 标注文件：如.txt或.json格式，包含音频对应的文本标注。

将数据集组织为以下结构（示例）：

/local/path/to/dataset/
    ├── audio/
    │   ├── file1.wav
    │   ├── file2.wav
    │   └── ...
    ├── transcripts.txt

其中，transcripts.txt的内容可以是：

file1.wav <tab> 这是第一条音频的标注文本
file2.wav <tab> 这是第二条音频的标注文本

2. 使用MsDataset加载本地数据集

在不联网的情况下，可以通过MsDataset的load方法直接加载本地路径中的数据集。具体代码如下：

from modelscope.msdatasets import MsDataset

# 指定本地数据集路径
local_dataset_path = "/local/path/to/dataset"

# 加载本地数据集
dataset = MsDataset.load(local_dataset_path, split="train")

# 查看数据集内容
print(dataset[0])  # 打印第一条数据

注意： - split参数用于指定数据集的划分（如train、validation等）。如果数据集未明确划分，可省略该参数。 - 确保本地数据集路径正确，并且数据格式符合模型要求。

3. 数据集格式适配

如果本地数据集的格式与FunASR的要求不完全一致，可以通过自定义预处理脚本进行适配。例如：

def preprocess_data(example):
    # 假设example包含"audio_path"和"text"字段
    audio_path = example["audio_path"]
    text = example["text"]
    # 自定义处理逻辑
    return {"audio": audio_path, "text": text}

# 应用预处理
dataset = dataset.map(preprocess_data)

4. 配置训练任务

在加载本地数据集后，将其传递给训练脚本或框架。例如：

from funasr import train

# 配置训练参数
train_config = {
    "data": {
        "train_data_path": dataset,
        "batch_size": 16,
        "num_workers": 4
    },
    "model": {
        "model_name": "funasr_model"
    }
}

# 启动训练
train(train_config)

5. 注意事项

数据格式一致性：确保本地数据集的格式与模型预期的输入格式一致，否则可能导致训练失败。
存储路径权限：确保程序对本地数据集路径具有读取权限。
离线环境依赖：在不联网的情况下，需提前下载并配置所有必要的依赖项（如预训练模型权重、第三方库等）。

通过上述步骤，您可以在ModelScope-FunASR中成功加载本地数据集并进行不联网训练。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

ModelScope为啥使用notebook的cpu版本，finetune.sh脚本去训练一直失败？

302

1

0

modelscope这个古诗数据集我要不要把分隔符定义为'\n'?

146

1

0

我可否先在网上下载数据集，然后替换到modelscope文件里面?

350

1

0

从modelscope下载数据集后很乱？

428

1

0

在modelscope-funasr中训练数据时长和训练时长有没有一个估算公式？

260

0

0

在modelscope-funasr中funasr有在自有数据集上重新训练新模型的教程吗？

359

1

0

modelscope-funasr使用微调后，效果不好，如何提高模型准确率？

338

0

0

ModelScope中，下载meta-llama-3.1-8b 模型包报错，怎么解决？

395

0

0

请问ModelScope的swift部署本地模型有文章推荐吗？

229

0

0

modelscope-funasr模型内部能区分采样点是几个字节的吗?

160

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

一句话查高铁票并写入文件：揭秘 IntentOrch 的意图驱动编排黑科技

AI元认知雏形

保密检查在本项目中的总体链路：从按钮到任务清单：免费开源的文档编审软件WPS AI插件.察元AI 文档助手

语义压缩，才是提示词工程的底层心法

阿里云自然语言处理全栈对接指南：从入门到企业级集成实战

热门讨论

热门文章

modelscope-funasr 热词如何设置？

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

如何修改通义千问的system prompt，以修改自定义名字

modelscope-funasr这个报错怎么处理？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

下载报错ssl认证失败

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

展开全部

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

展开全部

还有其他疑问?