LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了-阿里云开发者社区

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

2024-08-06 47

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第6天】DeePEn是一种免训练异构大模型集成学习框架，旨在通过融合多个不同架构和参数的大模型输出概率分布，提升整体性能。它首先将各模型输出映射至统一概率空间，然后进行聚合，并最终反转回单一模型空间以生成输出。实验证明，在知识问答和推理任务上，DeePEn相比单一大模型如LLaMA和Mistral有显著提升，但其效果受模型质量和数量影响，并且计算成本较高。[论文: https://arxiv.org/abs/2404.12715]

在人工智能领域，大模型集成学习（Ensemble Learning）已经成为了提升模型性能的常用方法。然而，现有的集成学习方法主要关注于同构模型的集成，即集成的模型具有相同的架构和参数。然而，在实际应用中，我们常常需要集成多个异构模型，即集成的模型具有不同的架构和参数。

为了解决这个问题，研究人员提出了一种名为DeePEn的免训练异构大模型集成学习框架。DeePEn旨在通过融合多个异构大模型的输出概率分布，实现模型性能的提升。

DeePEn框架的核心思想是通过融合多个异构大模型的输出概率分布，实现模型性能的提升。具体来说，DeePEn框架包括以下几个关键步骤：

1.概率分布映射：首先，DeePEn将每个异构大模型的输出概率分布从其自身的概率空间映射到一个统一的概率空间。这个映射过程基于相对表示理论，通过计算概率分布之间的相对差异来实现。

2.概率分布聚合：在统一的概率空间中，DeePEn将各个模型的概率分布进行聚合。聚合的方式可以是简单的平均，也可以是更复杂的加权平均或最大值操作。

3.概率分布反转：最后，DeePEn将聚合后的概率分布反转回其中一个模型的概率空间，以确定下一个要生成的token。这个反转过程通过搜索算法来实现，以找到最接近聚合概率分布的单个模型概率分布。

为了验证DeePEn框架的性能，研究人员在多个数据集上进行了实验。实验结果表明，DeePEn框架在多个任务上都取得了显著的性能提升。

首先，在知识问答任务上，DeePEn框架的性能优于单个模型的性能。例如，在WebQuestions数据集上，DeePEn框架的性能比LLaMA模型提升了10.2%，比Mistral模型提升了8.7%。

其次，在推理任务上，DeePEn框架的性能也优于单个模型的性能。例如，在MultiRC数据集上，DeePEn框架的性能比LLaMA模型提升了8.9%，比Mistral模型提升了7.4%。

此外，研究人员还发现，DeePEn框架的性能与集成的模型数量和模型架构有关。一般来说，集成的模型数量越多，性能越好；集成的模型架构越多样化，性能也越好。

然而，DeePEn框架也存在一些局限性。首先，DeePEn框架的性能取决于集成的模型的质量和数量，如果集成的模型质量较差或数量较少，性能可能会受到影响。其次，DeePEn框架的计算复杂度较高，需要进行多次概率分布的映射、聚合和反转操作，这可能会增加模型的训练和推理时间。最后，DeePEn框架的可解释性较差，难以理解模型性能提升的原因和机制。

论文地址：https://arxiv.org/abs/2404.12715

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景