ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

简介: 【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。

在人工智能领域,视觉语言预训练(VLP)模型因其在理解图像和文本方面的卓越能力而备受瞩目。然而,这些模型也容易受到多模态对抗样本(AEs)的攻击。为了解决这个问题,研究人员提出了一种名为Cross-Clean-Adversarial Regional Diversification(CCAR-Div)的新型策略,旨在提高VLP模型的对抗迁移性。

CCAR-Div策略的核心思想是通过在对抗轨迹的交集区域进行多样化来增强对抗样本的多样性。具体来说,该策略考虑了原始图像、前一步的对抗图像以及当前的对抗图像之间的交集区域,并在该区域内进行采样,以获得更多样化的对抗样本。此外,CCAR-Div策略还引入了基于文本的对抗样本选择策略,以充分利用模态之间的交互作用。

为了验证CCAR-Div策略的有效性,研究人员在两个广泛使用的多模态数据集Flickr30K和MSCOCO上进行了广泛的实验。实验结果表明,CCAR-Div策略在提高对抗迁移性方面非常有效,尤其是在跨模型和跨任务的场景中。

在跨模型的场景中,研究人员使用不同的VLP模型(如ALBEF、TCL、CLIP_ViT和CLIP_CNN)进行了实验。结果显示,CCAR-Div策略在提高对抗迁移性方面明显优于其他方法,尤其是在攻击具有不同结构的模型时。例如,当使用ALBEF生成对抗样本并攻击TCL时,CCAR-Div策略的黑盒攻击成功率达到了95.58%,而其他方法的成功率则较低。

在跨任务的场景中,研究人员使用CCAR-Div策略生成的对抗样本进行了视觉定位和图像字幕生成等任务的实验。结果显示,这些对抗样本在跨任务的场景中也表现出了良好的迁移性,成功干扰了其他任务的性能。

然而,CCAR-Div策略也存在一些潜在的问题。首先,该策略的计算成本较高,尤其是在处理大规模数据集时。其次,该策略可能对某些类型的对抗样本不敏感,导致其在实际应用中的鲁棒性受到限制。此外,由于CCAR-Div策略主要关注于提高对抗迁移性,而没有直接解决对抗样本的生成问题,因此其在实际应用中的实用性还有待进一步验证。

论文链接:https://arxiv.org/pdf/2403.12445

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
376 2
|
4月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
247 17
|
2月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
5月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
286 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
6月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
278 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
6月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
282 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
11月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
350 4

热门文章

最新文章