CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

简介: 【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]

图像融合是计算机视觉领域的一个重要研究方向,旨在将多源图像的重要信息进行整合。然而,由于不同任务之间存在显著的交叉任务差异,实际应用中的融合机制差异很大,导致在子任务上的性能有限。为了解决这个问题,最近在CVPR 2024上发表的一篇论文中,研究人员提出了一种基于任务定制的适配器混合模型(Task-Customized Mixture of Adapters,简称TC-MoA),用于通用图像融合。

该论文的主要贡献在于,通过引入基于专家混合(Mixture of Experts,MoE)的思想,将专家视为高效微调的适配器,以提示预训练的基础模型。这些适配器在不同的融合任务之间共享,并通过相互信息正则化进行约束,以确保它们在不同的融合任务之间具有兼容性,同时在多源图像之间具有互补性。此外,该模型还引入了任务特定的路由网络,以根据不同的融合任务从不同的源中提取任务特定的信息,并进行动态主导强度的自适应视觉特征提示融合。

值得注意的是,TC-MoA能够控制不同融合任务之间的主导强度偏差,成功地将多个融合任务统一到一个模型中。实验结果表明,与现有的图像融合方法相比,TC-MoA在学习共性的同时,保持了对通用图像融合(包括多模态、多曝光和多聚焦)的兼容性,并且在更一般的实验中表现出了显著的控制能力。

然而,尽管TC-MoA在通用图像融合方面取得了令人印象深刻的结果,但仍存在一些潜在的问题。首先,由于TC-MoA依赖于预训练的基础模型,其性能可能受到基础模型的限制。如果基础模型在特定任务上的性能较差,那么TC-MoA在该任务上的性能也可能受到影响。其次,尽管TC-MoA通过共享适配器和相互信息正则化来提高不同任务之间的兼容性,但仍然存在一些任务特定的信息可能无法被有效提取的风险。

论文链接:https://arxiv.org/abs/2403.12494

目录
相关文章
|
人工智能 PyTorch 算法框架/工具
|
并行计算 PyTorch 算法框架/工具
【pytorch】解决pytorch:Torch not compiled with CUDA enabled
【pytorch】解决pytorch:Torch not compiled with CUDA enabled
8641 0
|
人工智能 API 计算机视觉
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
【6月更文挑战第27天】吴恩达团队提出多模态模型新方法—多样本上下文学习,允许模型无需微调即可快速适应新任务。通过扩大上下文窗口至2000个示例,模型性能在图像分类等任务上显著提升,同时研究了批处理优化以减少计算成本。尽管面临计算开销和数据需求的挑战,但该方法为AI的高效泛化开辟了新途径。[论文链接:https://arxiv.org/abs/2405.09798]
296 5
|
数据挖掘 Java 网络安全
学生免费获取PyCharm专业版
学生免费获取PyCharm专业版
1623 1
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)
|
XML 机器学习/深度学习 数据格式
YOLOv8训练自己的数据集+常用传参说明
YOLOv8训练自己的数据集+常用传参说明
19811 1
|
机器学习/深度学习 算法 计算机视觉
旋转目标检测【1】如何设计深度学习模型
平常的目标检测是平行的矩形框,“方方正正”的;但对于一些特殊场景(遥感),需要倾斜的框,才能更好贴近物体,旋转目标检测来啦~
1085 0
|
机器学习/深度学习 传感器 自然语言处理
时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
296 1
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
编解码 Python
pandas读取csv错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
pandas读取csv错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
1448 0