AI大模型技术中的模型融合(Model Merging)在概念上其实接近于“三个臭皮匠,顶个诸葛亮”的思路,其目标是将多个AI大模型合并成为一个能力更强的模型,其潜在的优点包括能够重复利用已训练过的AI模型、能够综合多个AI模型的能力形成新的能力、便于分工开发各个子模型等。
针对AI模型的模型融合技术已经存在不少研究,然而大多数的研究仅基于规模不大(一般不超过7B)的模型,并且参与模型融合的AI模型数量一般只有两三个;针对模型融合中其它因素的研究,例如使用指令微调后的AI模型进行模型融合的效果如何等等,还不太多见。
近期,来自美国北卡罗来纳大学教堂山分校、谷歌公司和美国弗吉尼亚理工大学的研究人员发布了一篇论文[1],介绍了作者们对于包括上述问题在内的模型融合中多方面问题的实验及结果。实验的主要内容包括:
- 既采用了仅经过预训练的PaLM-2系列模型,又采用了指令微调后的PaLM-2-IT模型进行模型融合实验,用以分析参与模型融合的AI模型的能力对于模型融合后模型能力的影响;
- 参与合并的模型的数量分别采用了2个、4个、6个、8个进行实验,用以分析参与合并的AI模型数量对于合并后模型能力的影响;实验中,每个参与合并的PaLM-2模型和PaLM-2-IT模型均使用了不同的、单一任务的微调数据进行了进一步的微调;这些不同任务的微调数据均来自于一个多任务的【微调数据集】;
- 所采用的PaLM-2模型和PaLM-2-IT模型均有1B、8B、24B、64B四种规模参与实验,用以分析参与合并的AI模型的大小对于合并后模型能力的影响;
- 合并模型的方法采用了Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种方法,用以分析合并模型的方法对于合并后模型能力的影响。
实验的主要结果包括:
- 与合并PaLM-2模型相比,合并PaLM-2-IT模型的效果更优;无论合并模型的方法选择哪种、参与合并的模型规模有多大、参与合并的模型数量是多少,该结果均不变;该结果说明参与模型融合的模型的能力影响模型融合后模型的能力;
- 参与模型融合的模型越大,模型融合后的效果就越优;无论参与合并的模型是PaLM-2-IT模型、还是PaLM-2模型,无论合并模型的方法如何选择、参与合并的模型数量是多少,该趋势均成立;
- 合并PaLM-2-IT模型时,合并后的模型完成【微调数据集之内任务】的能力普遍略逊于单一的PaLM-2-IT模型,但是完成【微调数据集之外任务】的能力普遍优于单一的PaLM-2-IT模型;参与合并的PaLM-2-IT模型数量越多,合并后模型完成【微调数据集之外任务】的能力就越强;当合并足够多、足够大的PaLM-2-IT模型时,合并后模型完成【微调数据集之外任务】的能力甚至优于采用全部【微调数据集之内任务】微调过的相同规模的PaLM-2-IT模型;
- 合并PaLM-2-IT模型时,并且当参与合并的模型规模足够大时,采用Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种合并方法所合并出的模型在完成各种任务的能力方面相差不大;无论参与合并的模型数量是多少,该结果均不变;
- 合并PaLM-2模型时,参与合并的模型数量对于合并后模型完成各种任务的能力要么存在负相关的影响,要么不存在显著的影响;但无论参与合并的PaLM-2模型数量是多少,合并后模型完成各种任务的能力普遍优于单一的PaLM-2模型。
参考文献:
[1] What Matters for Model Merging at Scale? https://arxiv.org/abs/2410.03617