训练数据集构建方式?

请对 train 训练数据文件的数据结构进行说明,以指导用户进行finetune 训练数据集的构建

展开
收起
1908959327060425 2023-04-13 17:29:40 262 分享 版权
阿里云 AI 助理回答

为了构建用于微调(finetune)的训练数据集,您需要遵循特定的数据结构来准备您的train训练数据文件。根据阿里云平台的不同应用场景,数据格式和结构会有所差异。以下是两种典型场景下的数据结构说明:

1. 机器阅读理解任务

对于机器阅读理解任务,训练数据集通常采用TSV或TXT格式,每行代表一个样本,包含以下列:

  • ID列:每个样本的唯一标识。
  • 篇章列:文章或文本段落内容。
  • 问句列:针对篇章提出的问题。
  • 答案列:问题对应的正确答案。
  • 起始位置列:答案在篇章中的起始字符位置(某些情况下可能需要)。
  • 标题列(非必须):篇章的标题。

示例结构

ID    篇章内容    问题    答案    起始位置    标题
1     ...         ...     ...     ...         ...
2     ...         ...     ...     ...         ...

2. SFT(Structured Fine-Tuning)格式 - 对话与图像理解任务

SFT格式主要用于支持多轮对话和图像理解的ChatML格式训练数据,每一行数据展开后遵循如下JSON结构:

对话任务

{
  "messages": [
    {"role": "system", "content": "<系统输入>"},
    {"role": "user", "content": "<用户输入1>"},
    {"role": "assistant", "content": "<模型期望输出1>"},
    {"role": "user", "content": "<用户输入2>"},
    {"role": "assistant", "content": "<模型期望输出2>"}
    // 更多轮次...
  ]
}

图像理解任务

{
  "messages": [
    {"role": "user", "content": [{"text": "<用户输入1>"}, {"image": "<图像文件名1>"}]},
    {"role": "assistant", "content": [{"text": "<模型期望输出1>"}]},
    {"role": "user", "content": [{"text": "<用户输入2>"}]},
    {"role": "assistant", "content": [{"text": "<模型期望输出2>"}]}
    // 更多轮次...
  ]
}

确保您的训练数据严格遵循上述结构,以便于在阿里云平台上进行模型的微调训练。正确的数据格式是保证训练过程顺利进行和模型性能的关键。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理