采用8个64B模型进行的模型融合,效果如何呢?

简介: 【10月更文挑战第1天】论文解读:针对模型融合(Model Merging)中的AI模型数量、模型大小、模型能力、合并方法等因素的实验及结果

AI大模型技术中的模型融合(Model Merging)在概念上其实接近于“三个臭皮匠,顶个诸葛亮”的思路,其目标是将多个AI大模型合并成为一个能力更强的模型,其潜在的优点包括能够重复利用已训练过的AI模型、能够综合多个AI模型的能力形成新的能力、便于分工开发各个子模型等。

针对AI模型的模型融合技术已经存在不少研究,然而大多数的研究仅基于规模不大(一般不超过7B)的模型,并且参与模型融合的AI模型数量一般只有两三个;针对模型融合中其它因素的研究,例如使用指令微调后的AI模型进行模型融合的效果如何等等,还不太多见。

近期,来自美国北卡罗来纳大学教堂山分校、谷歌公司和美国弗吉尼亚理工大学的研究人员发布了一篇论文[1],介绍了作者们对于包括上述问题在内的模型融合中多方面问题的实验及结果。实验的主要内容包括:

  • 既采用了仅经过预训练的PaLM-2系列模型,又采用了指令微调后的PaLM-2-IT模型进行模型融合实验,用以分析参与模型融合的AI模型的能力对于模型融合后模型能力的影响;
  • 参与合并的模型的数量分别采用了2个、4个、6个、8个进行实验,用以分析参与合并的AI模型数量对于合并后模型能力的影响;实验中,每个参与合并的PaLM-2模型和PaLM-2-IT模型均使用了不同的、单一任务的微调数据进行了进一步的微调;这些不同任务的微调数据均来自于一个多任务的【微调数据集】;
  • 所采用的PaLM-2模型和PaLM-2-IT模型均有1B、8B、24B、64B四种规模参与实验,用以分析参与合并的AI模型的大小对于合并后模型能力的影响;
  • 合并模型的方法采用了Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种方法,用以分析合并模型的方法对于合并后模型能力的影响。

实验的主要结果包括:

  • 与合并PaLM-2模型相比,合并PaLM-2-IT模型的效果更优;无论合并模型的方法选择哪种、参与合并的模型规模有多大、参与合并的模型数量是多少,该结果均不变;该结果说明参与模型融合的模型的能力影响模型融合后模型的能力;
  • 参与模型融合的模型越大,模型融合后的效果就越优;无论参与合并的模型是PaLM-2-IT模型、还是PaLM-2模型,无论合并模型的方法如何选择、参与合并的模型数量是多少,该趋势均成立;
  • 合并PaLM-2-IT模型时,合并后的模型完成【微调数据集之内任务】的能力普遍略逊于单一的PaLM-2-IT模型,但是完成【微调数据集之外任务】的能力普遍优于单一的PaLM-2-IT模型;参与合并的PaLM-2-IT模型数量越多,合并后模型完成【微调数据集之外任务】的能力就越强;当合并足够多、足够大的PaLM-2-IT模型时,合并后模型完成【微调数据集之外任务】的能力甚至优于采用全部【微调数据集之内任务】微调过的相同规模的PaLM-2-IT模型;
  • 合并PaLM-2-IT模型时,并且当参与合并的模型规模足够大时,采用Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种合并方法所合并出的模型在完成各种任务的能力方面相差不大;无论参与合并的模型数量是多少,该结果均不变;
  • 合并PaLM-2模型时,参与合并的模型数量对于合并后模型完成各种任务的能力要么存在负相关的影响,要么不存在显著的影响;但无论参与合并的PaLM-2模型数量是多少,合并后模型完成各种任务的能力普遍优于单一的PaLM-2模型。

参考文献:
[1] What Matters for Model Merging at Scale? https://arxiv.org/abs/2410.03617

算AI
+关注
目录
打赏
0
1
2
2
25
分享
相关文章
3D重建范式变革!最新模型MVDiffusion++
【2月更文挑战第30天】MVDiffusion++,一项革命性的3D重建技术,能在少量图像和无相机姿态信息下生成高密度、高分辨率的3D视图,简化重建流程。采用无姿态架构和视图丢弃策略,提升效率和质量。在Objaverse和Google Scanned Objects数据集上表现优越,且能与文本到图像生成模型结合,潜力广泛应用于游戏、电影和虚拟现实。然而,对训练数据质量和计算资源的需求是其挑战。
168 4
3D重建范式变革!最新模型MVDiffusion++
DistilQwen2.5-R1发布:知识蒸馏助推小模型深度思考
DistilQwen2.5-R1通过知识蒸馏技术,将大规模深度推理模型的知识迁移到小模型中,显著提升了小模型的推理能力。实验结果表明,DistilQwen2.5-R1在数学、代码和科学问题等多个基准测试中表现优异,尤其在7B参数量级上超越了其他开源蒸馏模型。 本文将深入阐述 DistilQwen2.5-R1 的蒸馏算法、性能评估,并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。
大模型技术的应用
【7月更文挑战第27天】大模型技术的应用
273 5
如何提升大模型的“深度思维能力”
本文探讨了如何通过模拟人类的思维过程来提升大模型的推理和规划能力。文章从人类的思维模式入手,分析了人类在面对复杂问题时的“增-减”信息循环,提出了通过增加相关信息和减少噪声来降低信息熵的方法。文章还讨论了如何生成逻辑自洽的推理路径,并通过实例说明了多结论问题的处理方法。最后,文章指出,通过现有的大模型进行针对性微调,可以逐步强化数据,提升模型的推理和规划能力。
448 11
《智领未来:C++ 与遗传算法在 AI 模型参数优化中的深度融合》
本文探讨了在C++中实现遗传算法并应用于人工智能模型参数优化的方法。遗传算法模拟自然界的进化过程,通过选择、交叉和变异等操作优化模型参数。文章详细介绍了C++实现遗传算法的关键步骤,包括定义个体与种群、初始化种群、适应度评估、选择、交叉、变异及迭代更新种群。此外,还讨论了C++实现遗传算法的优势与挑战,并展望了其在深度学习、强化学习、边缘计算等领域的应用前景。
114 9
自监督学习在多模态数据融合中的实践与探索
【8月更文第9天】自监督学习(Self-Supervised Learning, SSL)是一种机器学习方法,它利用未标记的数据来训练模型。这种方法通过设计预训练任务来挖掘数据的内在结构,无需人工标注,从而减少了对大量标注数据的依赖。当应用于多模态数据时,自监督学习可以帮助模型学习到不同模态之间的关联性,进而提高模型在特定下游任务上的表现。
570 7
多模态融合在 FunAudioLLM 中的应用
【8月更文第28天】随着深度学习的发展,多模态融合技术已经成为构建更加智能和自然的人机交互系统的关键。FunAudioLLM(Fun Audio Language Model)是一种旨在结合音频与文本数据以实现更自然、更丰富的声音合成效果的框架。本文将详细介绍 FunAudioLLM 如何利用多模态融合技术,并提供具体的代码示例。
144 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等