CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

简介: 【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]

图像融合是计算机视觉领域的一个重要研究方向,旨在将多源图像的重要信息进行整合。然而,由于不同任务之间存在显著的交叉任务差异,实际应用中的融合机制差异很大,导致在子任务上的性能有限。为了解决这个问题,最近在CVPR 2024上发表的一篇论文中,研究人员提出了一种基于任务定制的适配器混合模型(Task-Customized Mixture of Adapters,简称TC-MoA),用于通用图像融合。

该论文的主要贡献在于,通过引入基于专家混合(Mixture of Experts,MoE)的思想,将专家视为高效微调的适配器,以提示预训练的基础模型。这些适配器在不同的融合任务之间共享,并通过相互信息正则化进行约束,以确保它们在不同的融合任务之间具有兼容性,同时在多源图像之间具有互补性。此外,该模型还引入了任务特定的路由网络,以根据不同的融合任务从不同的源中提取任务特定的信息,并进行动态主导强度的自适应视觉特征提示融合。

值得注意的是,TC-MoA能够控制不同融合任务之间的主导强度偏差,成功地将多个融合任务统一到一个模型中。实验结果表明,与现有的图像融合方法相比,TC-MoA在学习共性的同时,保持了对通用图像融合(包括多模态、多曝光和多聚焦)的兼容性,并且在更一般的实验中表现出了显著的控制能力。

然而,尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果,但仍存在一些潜在的问题。首先,由于TC-MoA依赖于预训练的基础模型,其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差,那么TC-MoA在该任务上的性能也可能受到影响。其次,尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性,但仍然存在一些任务特定的信息可能无法被有效提取的风险。

论文链接:https://arxiv.org/abs/2403.12494

目录
相关文章
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
76 7
|
3月前
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
750 4
|
5月前
|
编解码 自然语言处理 计算机视觉
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
【6月更文挑战第29天】DynRefer,一款超越CVPR 2024的多模态识别工具,通过模拟人类视觉的动态分辨率,提升区域级任务的准确性和适应性。在区域字幕生成、识别和属性检测上取得SOTA,但计算成本高且可能依赖于对齐精度。[链接: https://arxiv.org/abs/2405.16071]
51 1
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
使用PyTorch实现混合专家(MoE)模型
在本文中,我将使用Pytorch来实现一个MoE模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。
698 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构
大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。
331 0
|
机器学习/深度学习 算法 计算机视觉
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
242 0
|
机器学习/深度学习 监控 算法
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
232 0
|
存储 算法 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(1)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
159 0
下一篇
无影云桌面