ECCV 2024：让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性-阿里云开发者社区

ECCV 2024：让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

2024-08-13 147

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第13天】在AI领域，视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力，但也易受多模态对抗样本攻击。为此，研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略，通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样，增加样本多样性，并利用模态交互作用。经Flickr30K和MSCOCO数据集验证，CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性，如使用ALBEF生成的对抗样本攻击TCL时，成功率高达95.58%。

在人工智能领域，视觉语言预训练（VLP）模型因其在理解图像和文本方面的卓越能力而备受瞩目。然而，这些模型也容易受到多模态对抗样本（AEs）的攻击。为了解决这个问题，研究人员提出了一种名为Cross-Clean-Adversarial Regional Diversification（CCAR-Div）的新型策略，旨在提高VLP模型的对抗迁移性。

CCAR-Div策略的核心思想是通过在对抗轨迹的交集区域进行多样化来增强对抗样本的多样性。具体来说，该策略考虑了原始图像、前一步的对抗图像以及当前的对抗图像之间的交集区域，并在该区域内进行采样，以获得更多样化的对抗样本。此外，CCAR-Div策略还引入了基于文本的对抗样本选择策略，以充分利用模态之间的交互作用。

为了验证CCAR-Div策略的有效性，研究人员在两个广泛使用的多模态数据集Flickr30K和MSCOCO上进行了广泛的实验。实验结果表明，CCAR-Div策略在提高对抗迁移性方面非常有效，尤其是在跨模型和跨任务的场景中。

在跨模型的场景中，研究人员使用不同的VLP模型（如ALBEF、TCL、CLIP_ViT和CLIP_CNN）进行了实验。结果显示，CCAR-Div策略在提高对抗迁移性方面明显优于其他方法，尤其是在攻击具有不同结构的模型时。例如，当使用ALBEF生成对抗样本并攻击TCL时，CCAR-Div策略的黑盒攻击成功率达到了95.58%，而其他方法的成功率则较低。

在跨任务的场景中，研究人员使用CCAR-Div策略生成的对抗样本进行了视觉定位和图像字幕生成等任务的实验。结果显示，这些对抗样本在跨任务的场景中也表现出了良好的迁移性，成功干扰了其他任务的性能。

然而，CCAR-Div策略也存在一些潜在的问题。首先，该策略的计算成本较高，尤其是在处理大规模数据集时。其次，该策略可能对某些类型的对抗样本不敏感，导致其在实际应用中的鲁棒性受到限制。此外，由于CCAR-Div策略主要关注于提高对抗迁移性，而没有直接解决对抗样本的生成问题，因此其在实际应用中的实用性还有待进一步验证。

论文链接：https://arxiv.org/pdf/2403.12445

ECCV 2024：让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ECCV 2024：让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

热门文章

最新文章

相关课程

相关电子书

相关实验场景