ModelScope中,如果想了解更多, 可以查看[自我认知微调最佳实践]参数咋用的?

self_cognition_sample: 自我认知数据集的采样数. 默认为0. 该值设置为>0时, 需要同时指定--model_name,--model_author`. ModelScope中,如果想了解更多, 可以查看[自我认知微调最佳实践]自我认知微调最佳实践.md. 参数咋用的?

展开
收起
小小爱吃香菜 2024-04-02 21:14:44 108 分享 版权
阿里云 AI 助理回答

参数 self_cognition_sample 的使用说明

参数 self_cognition_sample 用于指定自我认知数据集的采样数量。默认值为 0,表示不进行采样。如果需要对该参数进行设置(即值大于 0),则必须同时指定以下两个参数: - --model_name:模型名称。 - --model_author:模型作者。

使用场景

该参数通常在对大模型进行监督微调时使用,目的是让模型学习特定主题(如自我认知)的风格和内容。通过设置采样数,可以控制从自我认知数据集中抽取的样本数量,从而影响微调的效果。

配置方法

  1. 设置采样数
    self_cognition_sample 设置为一个正整数,例如 100,表示从自我认知数据集中随机抽取 100 条样本用于微调。

  2. 指定模型信息
    在命令行或配置文件中,同时指定以下参数:

    • --model_name:目标模型的名称,例如 DeepSeek-R1-Distill-Qwen-7B
    • --model_author:模型的作者信息,例如 PAI

    示例命令:

    python fine_tune.py --self_cognition_sample 100 --model_name DeepSeek-R1-Distill-Qwen-7B --model_author PAI
    
  3. 准备数据集
    确保自我认知数据集已准备好,并符合以下格式要求:

    • 数据集应包含对话形式的 JSON 格式数据。
    • 每条数据包括用户提问 (user) 和模型回答 (assistant)。

    示例数据集格式:

    {"messages": [{"role": "system", "content": "你是个有用无害的助理"}, {"role": "user", "content": "你是?"}, {"role": "assistant", "content": "我是小派,由PAI训练的人工智能助手。"}]}
    
  4. 微调模型
    执行微调任务后,模型将根据采样的自我认知数据集进行训练。训练完成后,可以通过部署服务验证微调效果。

注意事项

  • 思维链保留:如果希望微调后的模型在回复时保留思维链(<think>...</think>),需要准备带有思维链的训练数据。
  • 默认行为:当 self_cognition_sample=0 时,模型不会使用自我认知数据集进行微调。
  • 数据质量:确保采样的数据具有代表性,避免因数据偏差导致微调效果不佳。

参考资料

更多关于自我认知微调的最佳实践,请参考 ModelScope 中的相关文档。


通过上述步骤,您可以正确使用 self_cognition_sample 参数完成模型的微调任务。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理