我用chatglm3-6b微调过后，如何与原模型合并呢

已解决

展开

收起

游客ulzfizttcudli 2024-02-03 08:14:49 989 0

4 条回答

写回答

取消提交回答

听风de歌

采纳回答

微调后的ChatGPT-3.6B模型与原模型合并通常指的是将微调得到的新参数与原始模型权重相结合。然而，在实践中，通常并不直接“合并”模型，而是将微调过程视为对原有模型进行再训练的过程，以适应特定任务或数据集。训练完成后，新的微调模型就已经包含了对原模型参数的修改，可以直接用于对应任务。

如果确实有特殊需求想要部分保留原模型权重与微调权重的混合，这需要深入了解模型架构并采取特殊的融合策略，但这不是标准做法，而且需要高级的深度学习知识以及对模型内部机制的理解。

2024-02-04 16:03:20

赞同 14 展开评论打赏
你看看你看看j

可以搜索《从NeurIPS 2022看域泛化：大规模实验分析和模型平均》，似乎是可以直接参数相加然后取平均的。

2024-02-05 17:47:58

赞同 11 展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
要将微调后的模型与原模型合并，通常需要遵循特定的流程和步骤。以下是一些基本的步骤：
1. 确保模型兼容性：确保微调后的模型与原模型在结构上是兼容的，即它们的输入输出格式、网络架构等是一致的。
2. 导出微调模型权重：将微调后的模型权重导出为文件，这个文件通常包含了模型的所有参数。
3. 加载原模型权重：加载原始的ChatGLM3-6b模型权重，这通常需要一个预训练的模型文件。
4. 合并权重：将微调模型的权重与原模型的权重进行合并。这可能涉及到权重的选择性覆盖或者融合，具体方法取决于微调的目的和需求。
5. 验证模型：在合并权重之后，应该验证新模型的性能，确保它既保留了原模型的知识，也融入了微调带来的改进。
6. 部署使用：完成验证后，可以将合并后的模型部署到实际应用中使用。
请注意，这个过程可能需要一定的技术知识和对深度学习框架的熟悉。如果您不熟悉这些操作，建议查阅相关的技术文档或寻求专业人士的帮助。
2024-02-04 13:24:47

赞同 11 展开评论打赏
1941623231718325

chatglm3-6b微调后的模型肯定是用来解决特定任务或改进在特定领域的表现，所以它们不能与原始模型合并，因为微调过程改变了模型参数以适应新的训练目标。一旦模型被微调，它的权重就已经发生了变化，这些变化是为了捕获新任务所需的模式。

2024-02-04 11:17:58

赞同 10 展开评论打赏