Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了(1)

简介: Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

大脑活动到图像,Stable Diffusion 能重建。


如果人工智能可以解读你的想象,将你脑海中的图像变成现实,那会怎样?



虽然这听起来有点赛博朋克。但最近发表的一篇论文,让 AI 圈吵翻了天。



这篇论文发现,他们使用最近非常火的 Stable Diffusion,就能重建大脑活动中的高分辨率、高精准图像。作者写道,与之前的研究不同,他们不需要训练或微调人工智能模型来创建这些图像。




他们是怎么做到的呢?


在此研究中,作者基于 Stable Diffusion 来重建通过功能磁共振成像 (fMRI) 而获得的人脑活动图像。作者也表示,通过研究与大脑相关功能的不同组成部分(例如图像 Z 的潜在向量等),也有助于了解隐扩散模型的机制。


这篇论文也已经被 CVPR 2023 接收。


该研究的主要贡献包括:


  • 证明了其简单框架可以从具有高语义保真度的大脑活动中重建高分辨率(512×512)图像,而无需训练或微调复杂的深度生成模型,如下图所示;
  • 通过将特定组成部分映射到不同的大脑区域,该研究从神经科学的角度定量解释了 LDM 的每个组成部分;
  • 该研究客观地解释了 LDM 实现的文本到图像转换过程如何结合条件文本表达的语义信息,同时保持原始图像的外观。


方法概览


该研究的总体方法如下图 2 所示。图 2(上)是该研究中使用的 LDM 示意图,其中,ε 表示图像编码器,D 表示图像解码器,τ 表示文本编码器(CLIP)。


图 2(中)是该研究的解码分析示意图。研究者分别从早期(蓝色)和高级(黄色)视觉皮层内的 fMRI 信号中解码了呈现图像 (z) 和相关文本 c 的潜在表征。这些潜在表征被用作生成重建图像 X_zc 的输入。


图 2(下)是该研究的编码分析示意图。研究者构建了编码模型来预测来自 LDM 不同组成部分的 fMRI 信号,包括 z、c 和 z_c。


有关 Stable Diffusion 这里就不做过多介绍,相信很多人都比较了解。


结果


我们来看一下该研究的视觉重建结果。


解码

下图 3 展示了一个主体(subj01)的视觉重建结果。研究者为每个测试图像生成了五个图像,并选择了具有最高 PSM 的图像。一方面,只用 z 重建的图像在视觉上与原始图像一致,但未能抓住其语义内容。另一方面,只用 c 重建的图像生成的图像具有很高的语义保真度,但在视觉上却不一致。最后,使用 z_c 重建的图像可以生成具有高语义保真度的高分辨率图像。



图 4 展示了所有测试者对同一图像的重建图像(所有图像都是用 z_c 生成的)。总体来说,各测试者的重建质量是稳定和准确的。



图 5 是定量评估的结果:




相关文章
|
机器学习/深度学习 计算机视觉 算法
换脸效果媲美GAN!一文解析OpenAI最新流生成模型「Glow」
基于流的生成模型在 2014 年已经被提出,但是一直被忽视。由 OpenAI 带来的 Glow 展示了流生成模型强大的图像生成能力。文章使用可逆 1 x 1 卷积在已有的流模型 NICE 和 RealNVP 基础上进行扩展,精确的潜变量推断在人脸属性上展示了惊艳的实验效果。
4195 0
|
1月前
|
机器学习/深度学习 人工智能 算法
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
20 0
|
1月前
|
机器学习/深度学习 大数据 PyTorch
行为检测(一):openpose、LSTM、TSN、C3D等架构实现或者开源代码总结
这篇文章总结了包括openpose、LSTM、TSN和C3D在内的几种行为检测架构的实现方法和开源代码资源。
44 0
|
6月前
|
人工智能 计算机视觉
让机器准确看懂手物交互动作,清华大学等提出GeneOH Diffusion方法
【5月更文挑战第19天】清华大学等机构的研究人员提出GeneOH Diffusion方法,以提升机器对手物体交互动作的理解。该方法使用去噪扩散模型学习动作的潜在分布,能处理复杂场景并泛化到新动作,增强模型的通用性和适应性。尽管需要大量数据和计算资源训练,且可能在复杂动作识别上存在局限,但其强大的泛化能力对实际应用具有重要意义。[链接](https://arxiv.org/abs/2402.14810)
73 7
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
162 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
人工智能 文字识别 调度
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
|
6月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
166 1
|
数据采集 人工智能 数据可视化
AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像
AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像
187 0
|
计算机视觉
Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了(2)
Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了
|
编解码 人工智能 计算机视觉
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
256 0
下一篇
无影云桌面