采用8个64B模型进行的模型融合,效果如何呢?

简介: 【10月更文挑战第1天】论文解读:针对模型融合(Model Merging)中的AI模型数量、模型大小、模型能力、合并方法等因素的实验及结果

AI大模型技术中的模型融合(Model Merging)在概念上其实接近于“三个臭皮匠,顶个诸葛亮”的思路,其目标是将多个AI大模型合并成为一个能力更强的模型,其潜在的优点包括能够重复利用已训练过的AI模型、能够综合多个AI模型的能力形成新的能力、便于分工开发各个子模型等。

针对AI模型的模型融合技术已经存在不少研究,然而大多数的研究仅基于规模不大(一般不超过7B)的模型,并且参与模型融合的AI模型数量一般只有两三个;针对模型融合中其它因素的研究,例如使用指令微调后的AI模型进行模型融合的效果如何等等,还不太多见。

近期,来自美国北卡罗来纳大学教堂山分校、谷歌公司和美国弗吉尼亚理工大学的研究人员发布了一篇论文[1],介绍了作者们对于包括上述问题在内的模型融合中多方面问题的实验及结果。实验的主要内容包括:

  • 既采用了仅经过预训练的PaLM-2系列模型,又采用了指令微调后的PaLM-2-IT模型进行模型融合实验,用以分析参与模型融合的AI模型的能力对于模型融合后模型能力的影响;
  • 参与合并的模型的数量分别采用了2个、4个、6个、8个进行实验,用以分析参与合并的AI模型数量对于合并后模型能力的影响;实验中,每个参与合并的PaLM-2模型和PaLM-2-IT模型均使用了不同的、单一任务的微调数据进行了进一步的微调;这些不同任务的微调数据均来自于一个多任务的【微调数据集】;
  • 所采用的PaLM-2模型和PaLM-2-IT模型均有1B、8B、24B、64B四种规模参与实验,用以分析参与合并的AI模型的大小对于合并后模型能力的影响;
  • 合并模型的方法采用了Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种方法,用以分析合并模型的方法对于合并后模型能力的影响。

实验的主要结果包括:

  • 与合并PaLM-2模型相比,合并PaLM-2-IT模型的效果更优;无论合并模型的方法选择哪种、参与合并的模型规模有多大、参与合并的模型数量是多少,该结果均不变;该结果说明参与模型融合的模型的能力影响模型融合后模型的能力;
  • 参与模型融合的模型越大,模型融合后的效果就越优;无论参与合并的模型是PaLM-2-IT模型、还是PaLM-2模型,无论合并模型的方法如何选择、参与合并的模型数量是多少,该趋势均成立;
  • 合并PaLM-2-IT模型时,合并后的模型完成【微调数据集之内任务】的能力普遍略逊于单一的PaLM-2-IT模型,但是完成【微调数据集之外任务】的能力普遍优于单一的PaLM-2-IT模型;参与合并的PaLM-2-IT模型数量越多,合并后模型完成【微调数据集之外任务】的能力就越强;当合并足够多、足够大的PaLM-2-IT模型时,合并后模型完成【微调数据集之外任务】的能力甚至优于采用全部【微调数据集之内任务】微调过的相同规模的PaLM-2-IT模型;
  • 合并PaLM-2-IT模型时,并且当参与合并的模型规模足够大时,采用Averaging、Task Arithmetic、Dare-TIES、TIES-Merging四种合并方法所合并出的模型在完成各种任务的能力方面相差不大;无论参与合并的模型数量是多少,该结果均不变;
  • 合并PaLM-2模型时,参与合并的模型数量对于合并后模型完成各种任务的能力要么存在负相关的影响,要么不存在显著的影响;但无论参与合并的PaLM-2模型数量是多少,合并后模型完成各种任务的能力普遍优于单一的PaLM-2模型。

参考文献:
[1] What Matters for Model Merging at Scale? https://arxiv.org/abs/2410.03617

目录
相关文章
|
XML 域名解析 JSON
【RESTful】RESTful API 接口设计规范 | 示例
【RESTful】RESTful API 接口设计规范 | 示例
14003 0
【RESTful】RESTful API 接口设计规范 | 示例
|
机器学习/深度学习 算法 异构计算
使用mergekit 合并大型语言模型
模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量,还可以获得额外的好处。
989 1
|
SQL 存储
milvus的attu里查询SQL如何编写
【6月更文挑战第4天】milvus的attu里查询SQL如何编写
1415 4
|
编解码 固态存储 容器
视频技术入门指南
你真的理解视频技术吗?什么是帧率、分辨率、码率?它们之间有什么关系?你知道“1080p”和“4K”中的“p”和“K”代表什么吗?如何描述视频质量?蓝光光盘(Blu-ray Disc)究竟是什么?H.264/AVC、H.265/HEVC、AV1 等编解码器有什么区别?苹果的 Apple ProRes 又有什么特殊用途?HDR 和杜比视界(Dolby Vision)是什么?为什么视频文件有.mp4、.mkv、.flv 等多种后缀?
2830 0
视频技术入门指南
|
机器学习/深度学习 搜索推荐 知识图谱
CIKM 2024:两位本科生一作,首次提出持续学习+少样本知识图谱补全
在信息爆炸时代,知识图谱的构建和维护面临数据稀疏与动态变化等挑战。CIKM 2024会议上,两位本科生提出将**持续学习与少样本学习结合**的新方法,有效应对这些难题。该方法通过持续学习框架适应动态变化,并利用少样本学习提高数据稀疏场景下的补全效果,显著提升了知识图谱的完整性和准确性。实验结果表明,此方法在准确性、鲁棒性和泛化能力上均有显著优势,为知识图谱补全领域带来了新思路。
396 40
|
人工智能 前端开发 Java
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
本文介绍了如何使用 **Spring Cloud Alibaba AI** 构建基于 Spring Boot 和 uni-app 的聊天机器人应用。主要内容包括:Spring Cloud Alibaba AI 的概念与功能,使用前的准备工作(如 JDK 17+、Spring Boot 3.0+ 及通义 API-KEY),详细实操步骤(涵盖前后端开发工具、组件选择、功能分析及关键代码示例)。最终展示了如何成功实现具备基本聊天功能的 AI 应用,帮助读者快速搭建智能聊天系统并探索更多高级功能。
4889 2
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
|
JSON 达摩院 Java
大模型时代下的文档智能 | 文档解析(大模型版)
文档智能(Document Mind)是基于阿里巴巴达摩院技术打造的多模态文档识别与理解引擎,提供通用文档智能、行业文档智能和文档自学习能力,满足各类智能文档处理需求。尤其在企业中,它能有效处理文本、图片、扫描件等多种非结构化文档,释放数据价值。本文将介绍文档智能的应用场景、产品架构及其核心功能——文档解析(大模型版),并展示其在线体验与API接口调用方法。

热门文章

最新文章