Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了(1)

简介: Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

大脑活动到图像,Stable Diffusion 能重建。


如果人工智能可以解读你的想象,将你脑海中的图像变成现实,那会怎样?



虽然这听起来有点赛博朋克。但最近发表的一篇论文,让 AI 圈吵翻了天。



这篇论文发现,他们使用最近非常火的 Stable Diffusion,就能重建大脑活动中的高分辨率、高精准图像。作者写道,与之前的研究不同,他们不需要训练或微调人工智能模型来创建这些图像。




他们是怎么做到的呢?


在此研究中,作者基于 Stable Diffusion 来重建通过功能磁共振成像 (fMRI) 而获得的人脑活动图像。作者也表示,通过研究与大脑相关功能的不同组成部分(例如图像 Z 的潜在向量等),也有助于了解隐扩散模型的机制。


这篇论文也已经被 CVPR 2023 接收。


该研究的主要贡献包括:


  • 证明了其简单框架可以从具有高语义保真度的大脑活动中重建高分辨率(512×512)图像,而无需训练或微调复杂的深度生成模型,如下图所示;
  • 通过将特定组成部分映射到不同的大脑区域,该研究从神经科学的角度定量解释了 LDM 的每个组成部分;
  • 该研究客观地解释了 LDM 实现的文本到图像转换过程如何结合条件文本表达的语义信息,同时保持原始图像的外观。


方法概览


该研究的总体方法如下图 2 所示。图 2(上)是该研究中使用的 LDM 示意图,其中,ε 表示图像编码器,D 表示图像解码器,τ 表示文本编码器(CLIP)。


图 2(中)是该研究的解码分析示意图。研究者分别从早期(蓝色)和高级(黄色)视觉皮层内的 fMRI 信号中解码了呈现图像 (z) 和相关文本 c 的潜在表征。这些潜在表征被用作生成重建图像 X_zc 的输入。


图 2(下)是该研究的编码分析示意图。研究者构建了编码模型来预测来自 LDM 不同组成部分的 fMRI 信号,包括 z、c 和 z_c。


有关 Stable Diffusion 这里就不做过多介绍,相信很多人都比较了解。


结果


我们来看一下该研究的视觉重建结果。


解码

下图 3 展示了一个主体(subj01)的视觉重建结果。研究者为每个测试图像生成了五个图像,并选择了具有最高 PSM 的图像。一方面,只用 z 重建的图像在视觉上与原始图像一致,但未能抓住其语义内容。另一方面,只用 c 重建的图像生成的图像具有很高的语义保真度,但在视觉上却不一致。最后,使用 z_c 重建的图像可以生成具有高语义保真度的高分辨率图像。



图 4 展示了所有测试者对同一图像的重建图像(所有图像都是用 z_c 生成的)。总体来说,各测试者的重建质量是稳定和准确的。



图 5 是定量评估的结果:




相关文章
|
7月前
|
人工智能 资源调度 算法
AI 绘画Stable Diffusion 研究(八)sd采样方法详解
AI 绘画Stable Diffusion 研究(八)sd采样方法详解
1286 0
|
3月前
|
机器学习/深度学习 自然语言处理 计算机视觉
YOLOv8改进 | 2023 | 给YOLOv8换个RT-DETR的检测头(重塑目标检测前沿技术)
YOLOv8改进 | 2023 | 给YOLOv8换个RT-DETR的检测头(重塑目标检测前沿技术)
115 0
|
2月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
39 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
机器学习/深度学习 数据可视化 算法
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
280 0
|
10月前
|
存储 机器学习/深度学习 机器人
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
149 0
|
11月前
|
机器学习/深度学习 监控 算法
|
12月前
|
计算机视觉
Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了(2)
Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了
|
12月前
|
存储 机器学习/深度学习 人工智能
YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型!!!
YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型!!!
243 0
|
12月前
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
129 0
|
12月前
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
162 0