CVPR 2024：基于MoE的通用图像融合模型，添加2.8%参数完成多项任务-阿里云开发者社区

CVPR 2024：基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

2024-05-10 445

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合，添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性，动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色，但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]

图像融合是计算机视觉领域的一个重要研究方向，旨在将多源图像的重要信息进行整合。然而，由于不同任务之间存在显著的交叉任务差异，实际应用中的融合机制差异很大，导致在子任务上的性能有限。为了解决这个问题，最近在CVPR 2024上发表的一篇论文中，研究人员提出了一种基于任务定制的适配器混合模型（Task-Customized Mixture of Adapters，简称TC-MoA），用于通用图像融合。

该论文的主要贡献在于，通过引入基于专家混合（Mixture of Experts，MoE）的思想，将专家视为高效微调的适配器，以提示预训练的基础模型。这些适配器在不同的融合任务之间共享，并通过相互信息正则化进行约束，以确保它们在不同的融合任务之间具有兼容性，同时在多源图像之间具有互补性。此外，该模型还引入了任务特定的路由网络，以根据不同的融合任务从不同的源中提取任务特定的信息，并进行动态主导强度的自适应视觉特征提示融合。

值得注意的是，TC-MoA能够控制不同融合任务之间的主导强度偏差，成功地将多个融合任务统一到一个模型中。实验结果表明，与现有的图像融合方法相比，TC-MoA在学习共性的同时，保持了对通用图像融合（包括多模态、多曝光和多聚焦）的兼容性，并且在更一般的实验中表现出了显著的控制能力。

然而，尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果，但仍存在一些潜在的问题。首先，由于TC-MoA依赖于预训练的基础模型，其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差，那么TC-MoA在该任务上的性能也可能受到影响。其次，尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性，但仍然存在一些任务特定的信息可能无法被有效提取的风险。

论文链接：https://arxiv.org/abs/2403.12494

CVPR 2024：基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CVPR 2024：基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

热门文章

最新文章

相关电子书