图像融合是计算机视觉领域的一个重要研究方向,旨在将多源图像的重要信息进行整合。然而,由于不同任务之间存在显著的交叉任务差异,实际应用中的融合机制差异很大,导致在子任务上的性能有限。为了解决这个问题,最近在CVPR 2024上发表的一篇论文中,研究人员提出了一种基于任务定制的适配器混合模型(Task-Customized Mixture of Adapters,简称TC-MoA),用于通用图像融合。
该论文的主要贡献在于,通过引入基于专家混合(Mixture of Experts,MoE)的思想,将专家视为高效微调的适配器,以提示预训练的基础模型。这些适配器在不同的融合任务之间共享,并通过相互信息正则化进行约束,以确保它们在不同的融合任务之间具有兼容性,同时在多源图像之间具有互补性。此外,该模型还引入了任务特定的路由网络,以根据不同的融合任务从不同的源中提取任务特定的信息,并进行动态主导强度的自适应视觉特征提示融合。
值得注意的是,TC-MoA能够控制不同融合任务之间的主导强度偏差,成功地将多个融合任务统一到一个模型中。实验结果表明,与现有的图像融合方法相比,TC-MoA在学习共性的同时,保持了对通用图像融合(包括多模态、多曝光和多聚焦)的兼容性,并且在更一般的实验中表现出了显著的控制能力。
然而,尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果,但仍存在一些潜在的问题。首先,由于TC-MoA依赖于预训练的基础模型,其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差,那么TC-MoA在该任务上的性能也可能受到影响。其次,尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性,但仍然存在一些任务特定的信息可能无法被有效提取的风险。