开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope将codegeeX2-6B微调出其他能力应该如何组织数据集呢？

ModelScope将codegeeX2-6B微调出其他能力（比如代码注释生成、
代码结构解析）应该如何组织数据集呢，另外如何导出单独的Lora权重？

展开

收起

陈幕白 2023-12-13 17:32:31 166 版权

阿里云 AI 助理回答

要将CodeGeeX2-6B模型微调为具备代码注释生成或代码结构解析等特定能力，您需要按照以下步骤组织数据集并导出单独的LoRA权重。以下是详细的操作指南：

一、数据集组织

为了实现代码注释生成或代码结构解析的能力，数据集的设计和标注至关重要。以下是具体要求和建议：

1. 数据集内容

输入数据：代码片段（如Python、Java、C++等语言的代码）。
目标输出：
- 代码注释生成：每段代码对应的自然语言注释。
- 代码结构解析：每段代码对应的结构化信息（如函数名、变量名、类定义等）。

2. 数据格式

数据集应以JSONL（JSON Lines）格式存储，每行一个样本，包含以下字段：

{
"input": "def add(a, b): return a + b",
"output": "这是一个用于加法运算的函数"
}

或者针对代码结构解析：

{
"input": "class MyClass: def __init__(self): pass",
"output": {"class_name": "MyClass", "methods": ["__init__"]}
}

3. 数据量要求

数量：建议至少准备5000条高质量样本，确保覆盖多种代码场景。
多样性：涵盖不同编程语言、代码风格和复杂度，避免过拟合。

4. 数据预处理

清洗：去除无效代码（如语法错误或不完整的代码片段）。
标准化：统一代码格式（如缩进、命名规范）。
增强：通过数据增强技术（如变量重命名、代码重构）增加数据多样性。

5. 数据上传

将处理好的数据集上传至阿里云对象存储OSS Bucket中，便于后续训练任务使用。

二、微调模型

在ModelScope平台上，您可以使用LoRA（Low-Rank Adaptation）方法对CodeGeeX2-6B进行轻量化微调。以下是关键步骤：

1. 配置超参数

根据知识库中的参考信息，以下是推荐的超参数配置： | 超参数 | 类型 | 默认值 | 描述 | |---------------------------|----------|------------|--------------------------------------------------------------------------| | learning_rate | float | 5e-5 | 学习率，控制模型权重调整幅度。 | | num_train_epochs | int | 3~6 | 训练数据集被重复使用的次数。 | | per_device_train_batch_size | int | 2~4 | 每个GPU在一次训练迭代中处理的样本数量。 | | gradient_accumulation_steps | int | 2~4 | 梯度累积步数，适用于显存不足的情况。 | | max_length | int | 1024 | 输入代码的最大token长度。 | | lora_rank | int | 8~32 | LoRA维度，影响微调效果和计算开销。 | | lora_alpha | int | 16~32 | LoRA权重，与lora_rank配合使用。 | | lora_dropout | float | 0.1 | 随机丢弃神经元的比例，防止过拟合。 |

2. 启动微调任务

在PAI控制台中，选择CodeGeeX2-6B模型卡片，点击“训练”按钮。
配置上述超参数，并指定上传的数据集路径。
开启LoRA轻量化训练选项（如-use_peft、-load_in_4bit等），以减少显存占用。

3. 监控训练过程

观察训练损失（Loss）曲线，确保其逐渐下降并趋于稳定。
如果出现过拟合（训练损失远小于验证损失），可适当降低学习率或增加数据量。

三、导出单独的LoRA权重

完成微调后，您需要将LoRA权重从基础模型中分离并导出。以下是具体操作步骤：

1. 融合LoRA权重

执行以下命令，将LoRA权重与基础模型融合：

! RANK=0 python /ml/code/convert.py \
 -model_name ./CodeGeeX2-6B/ \
 -model_type codegeex \
 -output_dir trained_model/ \
 -adapter_dir lora_model/

参数说明：
- RANK=0：单进程或主进程标识。
- -model_name：指定基础模型路径。
- -model_type：指定模型类型（此处为codegeex）。
- -output_dir：保存融合后的模型路径。
- -adapter_dir：指定LoRA适配器权重路径。

2. 导出LoRA权重

如果仅需导出LoRA权重文件，可在训练完成后直接从lora_model/目录中提取.safetensors或.bin格式的权重文件。

四、部署微调后的模型

完成微调和权重导出后，您可以将模型部署到ModelScope平台，提供API服务：

登录PAI控制台，进入EAS（弹性推理服务）页面。
单击“部署服务”，选择“自定义模型部署”。
配置以下关键参数：
- 服务名称：自定义服务名称。
- 镜像配置：选择modelscope-inference镜像。
- 环境变量：
  - MODEL_ID：设置为微调后的模型ID。
  - TASK：设置为code_comment_generation或code_structure_parsing。
- 部署资源：建议选择GPU实例（如GU30系列机型）。
单击“部署”，等待服务状态变为“运行中”。