ModelScope,使用自定义数据集,训练模型,有没有指导流程?
主要是想了解 用sdk加载 自己的数据集 ,然后喂给模型对吧, 您看看这个呢 https://modelscope.cn/docs/%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E9%9B%86%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B#3.2%20%E5%AF%B9%E6%8E%A5modelscope%E6%8F%90%E4%BE%9B%E7%9A%84%E4%B8%8B%E6%B8%B8%E6%A8%A1%E5%9E%8Bfinetune%E4%BB%BB%E5%8A%A1-此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope主要用于加载预训练好的模型进行对话、生成文本等应用,而不是从头训练模型。
如果要使用自定义数据集训练模型,需要使用像TensorFlow、PyTorch等深度学习框架来实现。
但是,通过ModelScope我们可以对训练好的模型进行finetune:
使用支持finetune的预训练模型(如BERT、GPT等模型)
使用ModelScope提供的continue_training功能,加载模型参数
获取ModelScope实例,准备训练数据
将数据传入continue_training,开始finetune训练
获取新的模型参数进行应用
比如finetune一个BERT模型用于分类任务:
python
Copy
from transformers import AutoModelForSequenceClassification, TrainingArguments, ModelScope
model = AutoModelForSequenceClassification.from_pretrained('bert-base-cased')
training_args = TrainingArguments()
scope = ModelScope(model=model, args=training_args)
scope.continue_training(train_data, validation_data)
model = scope.model
所以总体来说,ModelScope目前主要用于加载和应用预训练模型,如果要从零训练需要使用专业框架。但它支持基于自定义数据进行模型finetune。