在人工智能领域,大模型集成学习(Ensemble Learning)已经成为了提升模型性能的常用方法。然而,现有的集成学习方法主要关注于同构模型的集成,即集成的模型具有相同的架构和参数。然而,在实际应用中,我们常常需要集成多个异构模型,即集成的模型具有不同的架构和参数。
为了解决这个问题,研究人员提出了一种名为DeePEn的免训练异构大模型集成学习框架。DeePEn旨在通过融合多个异构大模型的输出概率分布,实现模型性能的提升。
DeePEn框架的核心思想是通过融合多个异构大模型的输出概率分布,实现模型性能的提升。具体来说,DeePEn框架包括以下几个关键步骤:
1.概率分布映射:首先,DeePEn将每个异构大模型的输出概率分布从其自身的概率空间映射到一个统一的概率空间。这个映射过程基于相对表示理论,通过计算概率分布之间的相对差异来实现。
2.概率分布聚合:在统一的概率空间中,DeePEn将各个模型的概率分布进行聚合。聚合的方式可以是简单的平均,也可以是更复杂的加权平均或最大值操作。
3.概率分布反转:最后,DeePEn将聚合后的概率分布反转回其中一个模型的概率空间,以确定下一个要生成的token。这个反转过程通过搜索算法来实现,以找到最接近聚合概率分布的单个模型概率分布。
为了验证DeePEn框架的性能,研究人员在多个数据集上进行了实验。实验结果表明,DeePEn框架在多个任务上都取得了显著的性能提升。
首先,在知识问答任务上,DeePEn框架的性能优于单个模型的性能。例如,在WebQuestions数据集上,DeePEn框架的性能比LLaMA模型提升了10.2%,比Mistral模型提升了8.7%。
其次,在推理任务上,DeePEn框架的性能也优于单个模型的性能。例如,在MultiRC数据集上,DeePEn框架的性能比LLaMA模型提升了8.9%,比Mistral模型提升了7.4%。
此外,研究人员还发现,DeePEn框架的性能与集成的模型数量和模型架构有关。一般来说,集成的模型数量越多,性能越好;集成的模型架构越多样化,性能也越好。
然而,DeePEn框架也存在一些局限性。首先,DeePEn框架的性能取决于集成的模型的质量和数量,如果集成的模型质量较差或数量较少,性能可能会受到影响。其次,DeePEn框架的计算复杂度较高,需要进行多次概率分布的映射、聚合和反转操作,这可能会增加模型的训练和推理时间。最后,DeePEn框架的可解释性较差,难以理解模型性能提升的原因和机制。