请对 train 训练数据文件的数据结构进行说明,以指导用户进行finetune 训练数据集的构建
为了构建用于微调(finetune)的训练数据集,您需要遵循特定的数据结构来准备您的train
训练数据文件。根据阿里云平台的不同应用场景,数据格式和结构会有所差异。以下是两种典型场景下的数据结构说明:
对于机器阅读理解任务,训练数据集通常采用TSV或TXT格式,每行代表一个样本,包含以下列:
ID 篇章内容 问题 答案 起始位置 标题
1 ... ... ... ... ...
2 ... ... ... ... ...
SFT格式主要用于支持多轮对话和图像理解的ChatML格式训练数据,每一行数据展开后遵循如下JSON结构:
{
"messages": [
{"role": "system", "content": "<系统输入>"},
{"role": "user", "content": "<用户输入1>"},
{"role": "assistant", "content": "<模型期望输出1>"},
{"role": "user", "content": "<用户输入2>"},
{"role": "assistant", "content": "<模型期望输出2>"}
// 更多轮次...
]
}
{
"messages": [
{"role": "user", "content": [{"text": "<用户输入1>"}, {"image": "<图像文件名1>"}]},
{"role": "assistant", "content": [{"text": "<模型期望输出1>"}]},
{"role": "user", "content": [{"text": "<用户输入2>"}]},
{"role": "assistant", "content": [{"text": "<模型期望输出2>"}]}
// 更多轮次...
]
}
确保您的训练数据严格遵循上述结构,以便于在阿里云平台上进行模型的微调训练。正确的数据格式是保证训练过程顺利进行和模型性能的关键。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352