CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

简介: 【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]

图像融合是计算机视觉领域的一个重要研究方向,旨在将多源图像的重要信息进行整合。然而,由于不同任务之间存在显著的交叉任务差异,实际应用中的融合机制差异很大,导致在子任务上的性能有限。为了解决这个问题,最近在CVPR 2024上发表的一篇论文中,研究人员提出了一种基于任务定制的适配器混合模型(Task-Customized Mixture of Adapters,简称TC-MoA),用于通用图像融合。

该论文的主要贡献在于,通过引入基于专家混合(Mixture of Experts,MoE)的思想,将专家视为高效微调的适配器,以提示预训练的基础模型。这些适配器在不同的融合任务之间共享,并通过相互信息正则化进行约束,以确保它们在不同的融合任务之间具有兼容性,同时在多源图像之间具有互补性。此外,该模型还引入了任务特定的路由网络,以根据不同的融合任务从不同的源中提取任务特定的信息,并进行动态主导强度的自适应视觉特征提示融合。

值得注意的是,TC-MoA能够控制不同融合任务之间的主导强度偏差,成功地将多个融合任务统一到一个模型中。实验结果表明,与现有的图像融合方法相比,TC-MoA在学习共性的同时,保持了对通用图像融合(包括多模态、多曝光和多聚焦)的兼容性,并且在更一般的实验中表现出了显著的控制能力。

然而,尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果,但仍存在一些潜在的问题。首先,由于TC-MoA依赖于预训练的基础模型,其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差,那么TC-MoA在该任务上的性能也可能受到影响。其次,尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性,但仍然存在一些任务特定的信息可能无法被有效提取的风险。

论文链接:https://arxiv.org/abs/2403.12494

目录
相关文章
|
7月前
|
人工智能 自动驾驶 机器人
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
【2月更文挑战第24天】ICLR 2024:模型选择驱动的鲁棒多模态模型推理
83 1
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
|
7月前
|
数据采集 机器学习/深度学习 数据可视化
ICCV 2023|基于ViT的高效视频识别UniFormerV2开源,K400首次90%准确率!
ICCV 2023|基于ViT的高效视频识别UniFormerV2开源,K400首次90%准确率!
217 0
|
2月前
|
自然语言处理 达摩院 数据挖掘
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
55 1
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
271 0
|
3月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
88 7
|
4月前
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
1062 4
|
6月前
|
编解码 自然语言处理 计算机视觉
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
【6月更文挑战第29天】DynRefer,一款超越CVPR 2024的多模态识别工具,通过模拟人类视觉的动态分辨率,提升区域级任务的准确性和适应性。在区域字幕生成、识别和属性检测上取得SOTA,但计算成本高且可能依赖于对齐精度。[链接: https://arxiv.org/abs/2405.16071]
62 1
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
134 0
|
机器学习/深度学习 自然语言处理 数据可视化
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
204 0

热门文章

最新文章