CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

简介: 【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]

图像融合是计算机视觉领域的一个重要研究方向,旨在将多源图像的重要信息进行整合。然而,由于不同任务之间存在显著的交叉任务差异,实际应用中的融合机制差异很大,导致在子任务上的性能有限。为了解决这个问题,最近在CVPR 2024上发表的一篇论文中,研究人员提出了一种基于任务定制的适配器混合模型(Task-Customized Mixture of Adapters,简称TC-MoA),用于通用图像融合。

该论文的主要贡献在于,通过引入基于专家混合(Mixture of Experts,MoE)的思想,将专家视为高效微调的适配器,以提示预训练的基础模型。这些适配器在不同的融合任务之间共享,并通过相互信息正则化进行约束,以确保它们在不同的融合任务之间具有兼容性,同时在多源图像之间具有互补性。此外,该模型还引入了任务特定的路由网络,以根据不同的融合任务从不同的源中提取任务特定的信息,并进行动态主导强度的自适应视觉特征提示融合。

值得注意的是,TC-MoA能够控制不同融合任务之间的主导强度偏差,成功地将多个融合任务统一到一个模型中。实验结果表明,与现有的图像融合方法相比,TC-MoA在学习共性的同时,保持了对通用图像融合(包括多模态、多曝光和多聚焦)的兼容性,并且在更一般的实验中表现出了显著的控制能力。

然而,尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果,但仍存在一些潜在的问题。首先,由于TC-MoA依赖于预训练的基础模型,其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差,那么TC-MoA在该任务上的性能也可能受到影响。其次,尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性,但仍然存在一些任务特定的信息可能无法被有效提取的风险。

论文链接:https://arxiv.org/abs/2403.12494

目录
相关文章
|
5天前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
43 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
|
存储 算法 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(1)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
119 0
|
机器学习/深度学习 存储 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(2)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
135 0
|
机器学习/深度学习 人工智能 算法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
164 0
|
机器学习/深度学习 计算机视觉 SEO
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(2)
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链
267 0
|
机器学习/深度学习 人工智能 数据可视化
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(1)
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链
200 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
200 0
|
机器学习/深度学习 自然语言处理 计算机视觉
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
220 0