采用8个64B模型进行的模型融合,效果如何呢?

简介: 【10月更文挑战第1天】论文解读:针对模型融合(Model Merging)中的AI模型数量、模型大小、模型能力、合并方法等因素的实验及结果

AI大模型技术中的模型融合(Model Merging)在概念上其实接近于“三个臭皮匠,顶个诸葛亮”的思路,其目标是将多个AI大模型合并成为一个能力更强的模型,其潜在的优点包括能够重复利用已训练过的AI模型、能够综合多个AI模型的能力形成新的能力、便于分工开发各个子模型等。

针对AI模型的模型融合技术已经存在不少研究,然而大多数的研究仅基于规模不大(一般不超过7B)的模型,并且参与模型融合的AI模型数量一般只有两三个;针对模型融合中其它因素的研究,例如使用指令微调后的AI模型进行模型融合的效果如何等等,还不太多见。

近期,来自美国北卡罗来纳大学教堂山分校、谷歌公司和美国弗吉尼亚理工大学的研究人员发布了一篇论文[1],介绍了作者们对于包括上述问题在内的模型融合中多方面问题的实验及结果。实验的主要内容包括:

  • 既采用了仅经过预训练的PaLM-2系列模型,又采用了指令微调后的PaLM-2-IT模型进行模型融合实验,用以分析参与模型融合的AI模型的能力对于模型融合后模型能力的影响;
  • 参与合并的模型的数量分别采用了2个、4个、6个、8个进行实验,用以分析参与合并的AI模型数量对于合并后模型能力的影响;实验中,每个参与合并的PaLM-2模型和PaLM-2-IT模型均使用了不同的、单一任务的微调数据进行了进一步的微调;这些不同任务的微调数据均来自于一个多任务的【微调数据集】;
  • 所采用的PaLM-2模型和PaLM-2-IT模型均有1B、8B、24B、64B四种规模参与实验,用以分析参与合并的AI模型的大小对于合并后模型能力的影响;
  • 合并模型的方法采用了Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种方法,用以分析合并模型的方法对于合并后模型能力的影响。

实验的主要结果包括:

  • 与合并PaLM-2模型相比,合并PaLM-2-IT模型的效果更优;无论合并模型的方法选择哪种、参与合并的模型规模有多大、参与合并的模型数量是多少,该结果均不变;该结果说明参与模型融合的模型的能力影响模型融合后模型的能力;
  • 参与模型融合的模型越大,模型融合后的效果就越优;无论参与合并的模型是PaLM-2-IT模型、还是PaLM-2模型,无论合并模型的方法如何选择、参与合并的模型数量是多少,该趋势均成立;
  • 合并PaLM-2-IT模型时,合并后的模型完成【微调数据集之内任务】的能力普遍略逊于单一的PaLM-2-IT模型,但是完成【微调数据集之外任务】的能力普遍优于单一的PaLM-2-IT模型;参与合并的PaLM-2-IT模型数量越多,合并后模型完成【微调数据集之外任务】的能力就越强;当合并足够多、足够大的PaLM-2-IT模型时,合并后模型完成【微调数据集之外任务】的能力甚至优于采用全部【微调数据集之内任务】微调过的相同规模的PaLM-2-IT模型;
  • 合并PaLM-2-IT模型时,并且当参与合并的模型规模足够大时,采用Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种合并方法所合并出的模型在完成各种任务的能力方面相差不大;无论参与合并的模型数量是多少,该结果均不变;
  • 合并PaLM-2模型时,参与合并的模型数量对于合并后模型完成各种任务的能力要么存在负相关的影响,要么不存在显著的影响;但无论参与合并的PaLM-2模型数量是多少,合并后模型完成各种任务的能力普遍优于单一的PaLM-2模型。

参考文献:
[1] What Matters for Model Merging at Scale? https://arxiv.org/abs/2410.03617

目录
相关文章
|
6月前
|
存储 人工智能 自然语言处理
|
6月前
|
人工智能 自然语言处理
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
468 4
AIGC核心技术——多模态预训练大模型
|
4月前
|
自然语言处理 搜索推荐 机器人
大模型技术的应用
【7月更文挑战第27天】大模型技术的应用
92 5
|
30天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
24天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
3月前
|
JSON 自然语言处理 物联网
大语言模型数据增强与模型蒸馏解决方案
本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。
|
3月前
|
网络安全 知识图谱 Python
自监督学习在多模态数据融合中的实践与探索
【8月更文第9天】自监督学习(Self-Supervised Learning, SSL)是一种机器学习方法,它利用未标记的数据来训练模型。这种方法通过设计预训练任务来挖掘数据的内在结构,无需人工标注,从而减少了对大量标注数据的依赖。当应用于多模态数据时,自监督学习可以帮助模型学习到不同模态之间的关联性,进而提高模型在特定下游任务上的表现。
215 7
|
3月前
|
机器学习/深度学习 算法 PyTorch
多模态融合在 FunAudioLLM 中的应用
【8月更文第28天】随着深度学习的发展,多模态融合技术已经成为构建更加智能和自然的人机交互系统的关键。FunAudioLLM(Fun Audio Language Model)是一种旨在结合音频与文本数据以实现更自然、更丰富的声音合成效果的框架。本文将详细介绍 FunAudioLLM 如何利用多模态融合技术,并提供具体的代码示例。
52 0
|
4月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的模型融合技术
在机器学习领域,模型融合技术已成为提升预测准确性和增强模型泛化能力的关键手段。本文将深入探讨模型融合的理论基础、实现策略以及实际应用案例,旨在为读者提供一套系统的理解和实践指导。通过分析不同类型的融合方法,包括简易模型平均、加权平均、Stacking、Bagging和Boosting等,文章揭示了模型融合如何有效整合多个模型的信息,减少过拟合风险,以及提高对未知数据的适应能力。
|
6月前
|
机器学习/深度学习 搜索推荐 数据挖掘
多模态融合的难点
【2月更文挑战第17天】多模态融合的难点
255 1
多模态融合的难点
下一篇
无影云桌面