Mirage: The Illusion of Visual Understanding

简介: 本研究证实当前多模态AI的高基准测试成绩,很大程度上是 “幻影效应” 带来的视觉理解假象,模型并非依靠真实视觉感知,而是利用文本线索、数据模式、先验知识完成任务。幻影效应在主流模型中普遍存在,医疗场景下的病理偏向会引发严重安全风险,现有评估范式无法区分真实视觉理解与文本推理。研究提出的B-Clean框架,可有效净化现有基准,实现多模态模型真实视觉能力的公平评估。

主要作者信息

Mohammad Asadi(斯坦福大学电气工程系)、Jack W. O’Sullivan(斯坦福大学医学部心脏病学分部、斯坦福大学生物医学数据科学系)

研究背景

  1. 多模态AI系统在真实世界任务中表现优异,已广泛应用于通用图像理解、机器人及医疗等领域,部分模型性能宣称超越人类专家,在医疗健康场景中获得患者与临床医生的信任。
  2. 当前多模态模型的视觉理解能力主要依靠各类基准测试(Benchmark)评估,高基准测试准确率被直接等同于更强的视觉理解能力。
  3. 现有评估范式存在显著缺陷:模型的视觉-语言推理机制尚未被清晰理解,模型可能利用文本线索、数据污染、隐藏模式而非真实视觉信息完成任务,尤其在医疗等高风险场景中,这种虚假的视觉理解会带来严重安全隐患。
  4. 传统幻觉(Hallucination)研究聚焦于有效认知框架内的无依据细节填充,而多模态模型在无图像输入时构建虚假认知框架的行为尚未被系统研究。

研究目的

  1. 揭示多模态大模型在无图像输入时仍自信生成视觉描述与推理的“幻影效应(Mirage Effect)”,量化该现象的普遍程度与偏差特征。
  2. 验证多模态模型的基准测试高分是否源于真实视觉理解,还是仅依靠文本线索、数据模式与先验知识实现。
  3. 对比模型在幻影模式(Mirage-mode)与明确猜测模式(Guess-mode)下的表现,揭示两种模式的内在推理机制差异。
  4. 提出可落地的基准测试净化方案,实现对多模态模型真实视觉理解能力的公平、可靠评估。

本文核心贡献

  1. 定义并量化幻影效应:首次提出多模态AI的“幻影推理”概念,即模型在无图像输入时仍自信描述视觉特征、构建虚假认知框架,且该行为在主流前沿模型中普遍存在,医疗场景下还呈现病理偏向性。
  2. 颠覆现有评估认知:证明前沿多模态模型在无图像时仍能保留70%-80%的有图像基准准确率,医疗基准更易被文本推理破解,高分不代表真实视觉理解。
  3. 文本模型超越多模态模型:仅30亿参数的纯文本“超级猜测器”,在无图像训练的胸部X光基准上,性能超越所有前沿多模态模型与人类放射科医生。
  4. 提出B-Clean净化框架:通过后处理方式移除基准中可被文本破解的问题,实现多模态模型真实视觉能力的公平对比,改变模型原有排名与性能差距。

研究方法

1. 模型选择

选用GPT-5系列、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5/Sonnet 4.5等主流前沿多模态模型,通过官方API接口调用,统一设置推理模式与参数。

2. 数据集与基准测试

  1. 幻影检测基准(Phantom-0):包含20个领域、200个无图像视觉问题,用于量化幻影率。
  2. 通用与医疗多模态基准:MMMU-Pro、Video-MMMU、Video-MME(通用);VQA-Rad、MicroVQA、MedXpertQA-MM、ReXVQA(医疗)。
  3. 纯文本超级猜测器:基于Qwen2.5-3B纯文本模型,在移除图像的ReXVQA训练集上微调,避免数据污染。

3. 核心实验设计

  1. 幻影率量化:向模型提交无图像的视觉问题,不提示图像缺失,用GPT-5自动判断模型是否描述不存在的视觉内容。
  2. 幻影分数(Mirage Score)计算:幻影分数=无图像准确率/有图像准确率×100%,衡量模型对文本线索的依赖程度。
  3. 幻影模式vs猜测模式对比:幻影模式不提示图像缺失;猜测模式明确告知图像缺失并指令猜测,对比两种模式的准确率差异。
  4. B-Clean基准净化:先对候选模型做无图像测试,移除所有模型可文本答对的问题,剩余问题仅用于评估真实视觉能力。

4. 医疗偏差分析

以Gemini-3-Pro为对象,在脑部MRI、胸部X光、心电图、病理切片、皮肤图像5类医疗场景,重复200次无图像诊断请求,统计病理偏向分布。

研究结果

  1. 幻影效应普遍存在:所有测试前沿模型的平均幻影率超60%,添加标准多模态提示后幻影率升至90%-100%,模型完全无视图像缺失。
  2. 医疗幻影具病理偏向:模型在无图像时倾向生成严重病理诊断,如STEMI、黑色素瘤、癌证等,正常结果占比低,存在高临床风险。
  3. 无图像性能远超预期:模型无图像时准确率,超过有图像带来的额外增益,平均保留70%-80%有图像准确率,医疗基准易受文本推理破解。
  4. 纯文本模型实现反超:30亿参数Qwen2.5纯文本“超级猜测器”,在ReXVQA测试集上超越所有前沿多模态模型与放射科医生平均水平,推理轨迹与真实视觉推理难以区分。
  5. 猜测模式性能显著下降:明确告知图像缺失后,模型准确率大幅降低,证明幻影模式利用了隐藏文本模式,而非简单猜测。
  6. B-Clean有效净化基准:净化后基准仅保留原23%-26%的问题,模型准确率大幅下降,部分基准的模型排名发生改变,真实视觉能力被准确评估。

总结与展望

总结

本研究证实当前多模态AI的高基准测试成绩,很大程度上是 “幻影效应” 带来的视觉理解假象,模型并非依靠真实视觉感知,而是利用文本线索、数据模式、先验知识完成任务。幻影效应在主流模型中普遍存在,医疗场景下的病理偏向会引发严重安全风险,现有评估范式无法区分真实视觉理解与文本推理。研究提出的B-Clean框架,可有效净化现有基准,实现多模态模型真实视觉能力的公平评估。

局限性

  1. 未完全揭示幻影效应的内部生成机制,仅为推理假设。
  2. B-Clean框架依赖候选模型集合,仅提供相对评估,无法给出绝对视觉能力指标。
  3. 研究仅针对多模态场景,不否定模型的通用文本推理能力。

未来展望

  1. 将模态消融测试作为多模态模型评估的标准流程,常规检测模型对各输入模态的依赖。
  2. 采用私有或动态更新基准,避免数据污染对评估的干扰。
  3. 构建嵌入反事实探测的模型架构,运行时检测并抑制幻影推理。
  4. 深入研究幻影效应的生成机制,开发更普适的无幻影多模态训练与评估方法。
相关文章
|
7天前
|
人工智能 JSON 文字识别
一行命令,让你的 Code Agent 会读PDF
一行命令 `npx skills add tanis90/pdf-converter-mineru`,即可为Claude Code、Cursor等主流Code Agent注入PDF阅读能力。基于上海AI Lab开源的MinerU引擎,支持扫描件OCR、表格/公式识别、中英混排,自动选择快读或高精模式,开箱即用,无需部署MCP服务。(239字)
416 15
|
19天前
|
人工智能 监控 Linux
零基础保姆级|阿里云+本地部署OpenClaw 多Agent调度+任务自动化+大模型配置教程
2026年,OpenClaw(原Clawdbot)凭借多Agent协作架构、灵活的工作区划分与无WebUI的高效管理模式,成为个人与团队实现AI自动化的核心工具。这款开源AI智能体框架打破了传统单一模型的局限,通过Mission Control控制台实现百个Agent的统一调度,搭配阿里云千问大模型或免费Coding Plan API,可完成任务拆解、自动接力、需求澄清与全局监控,真正实现从“手动操作”到“智能管理”的跃迁。
1004 0
|
3月前
|
机器学习/深度学习 测试技术 数据中心
九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。
1203 2
|
15天前
|
人工智能 安全 Linux
OpenClaw 本地/阿里云部署与必装4大核心Skill+大模型API全配置手册及问题排查
OpenClaw(社区常称“龙虾”)是一款轻量化、可扩展、本地优先运行的AI代理平台,通过模块化Skill实现安全检测、技能搜索、实时联网、网页自动化等核心能力,形成从安全打底到落地执行的完整工作流,适配办公、学习、开发、日常自动化等多场景。本文基于2026年最新版本,完整讲解OpenClaw四大必装Skill的功能、安装、配置与使用,同时提供本地MacOS、Linux、Windows11及阿里云轻量服务器部署流程,详解阿里云千问大模型API与免费Coding Plan API配置方法,并整理高频问题解决方案,所有命令均可直接复制执行,零基础用户也能快速搭建稳定、安全、高效的私人AI助手系统。
588 12
|
15天前
|
人工智能 JavaScript Linux
告别Token烧钱!OpenClaw 1分钟阿里云+本地部署与免费大模型API配置实战完整教程
2026年,OpenClaw(曾用名Clawdbot、Moltbot,昵称大龙虾)已成为面向个人与小型团队的主流AI代理平台,可集成多类大模型、支持多IM渠道接入、实现自动化任务与长上下文对话。但在实际使用中,不少用户仍面临部署复杂、环境依赖混乱、Token消耗过快、API对接失败等问题。本文基于2026年最新规范,完整覆盖阿里云轻量服务器一键部署、Windows11/MacOS/Linux本地部署、阿里云百炼千问大模型API与Coding Plan配置,并整理高频问题与稳定运行方案,全程可直接复制命令执行,无额外技术门槛,帮助用户快速搭建稳定、低成本、全天候在线的AI助手。
418 0
|
4月前
|
人工智能 前端开发 JavaScript
GLM-4.7实战指南:三个梯度测试,解锁国产大模型的代码生成与审美上限
国产大模型 GLM-4.7 在前端代码生成与智能体编程(Agentic Coding)上实现突破,凭借强大的逻辑推理、UI 审美与交互设计能力,可媲美 Claude 3.5 Sonnet。实测显示,其在 SVG 生成、网页游戏开发及高级页面设计中表现惊艳,支持长上下文、高性价比 API,成为开发者高效落地 AI 编程的优选工具。
GLM-4.7实战指南:三个梯度测试,解锁国产大模型的代码生成与审美上限
|
11月前
|
人工智能 自然语言处理 数据可视化
中国版“Manus”开源?AiPy:用Python重构AI生产力的通用智能体
AiPy是LLM大模型+Python程序编写+Python程序运行+程序可以控制的一切。
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
27260 71
|
6月前
|
人工智能 监控 数据挖掘
AiPy发布第五期大模型适配度测评报告:Claude、GLM、豆包位居前三,美团LongCat落后
10月13日,AiPy发布《大模型适配度测评第五期报告》,覆盖20款国内外主流大模型,聚焦数据分析、编程开发、UI设计等十大真实场景。报告从成功率、资源消耗、速度等多维度综合评估,Claude-Sonnet-4以90%成功率位居榜首,GLM-4.5、Doubao-Seed-1.6等国产模型表现亮眼,展现中国AI技术进步。测评发现代码质量、中文支持、任务规划仍是主要挑战,为用户选型与模型优化提供重要参考。
|
6月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
1637 4