AI读脑炸裂！扫描大脑画面，Stable Diffusion逼真复现图像-阿里云开发者社区

AI读脑炸裂！扫描大脑画面，Stable Diffusion逼真复现图像

2023-05-12 204

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI读脑炸裂！扫描大脑画面，Stable Diffusion逼真复现图像

新智元报道

编辑：编辑部

【新智元导读】近日，一项研究声称能够用Stable Diffusion将大脑活动重建为高分辨率、高精确度的图像。相关论文被CVPR 2023接收，引起网友哗然，AI读脑已经近在咫尺？

即便没有霍格沃茨的魔法，也能看到别人在想什么了！方法很简单，基于Stable Diffusion便可视化大脑图像。比如，你看到的小熊、飞机、火车是这样的。当AI看到大脑信号后，生成的图像是下面的样子，可见该有的要点全有了。这个AI读脑术刚刚被CVPR 2023接收，让圈友们瞬间「颅内高潮」。太野了！忘了提示工程吧，现在你只需要用脑子去「想」那些画面就行了。想象一下，用Stable Diffusion从fMRI数据中重建视觉图像，或许意味着未来可能发展为非入侵式的脑机接口。让AI直接跳过人类语言，感知人类大脑中所思所想。到时候，马斯克搞的Neuralink也要追赶这一AI天花板了。

无需微调，用AI直接复现你在想什么

那么，AI读脑究竟如何实现？最新研究来自日本大阪大学的研究团队。

论文地址：https://sites.google.com/view/stablediffusion-with-brain/大阪大学前沿生物科学研究生院和日本NICT的CiNet的研究人员基于潜在的扩散模型（LDM），更具体地说，通过Stable Diffusion从fMRI数据中重建视觉体验。整个运作过程的框架也非常简单：1个图像编码器、1个图像解码器，还有1个语义解码器。通过这样做，该团队消除了训练和微调复杂人工智能模型的需要。所有需要训练的是简单的线性模型，将下部和上部视觉脑区的fMRI信号映射到单个Stable Diffusion成分。具体来说，研究人员将大脑区域映射为图像和文本编码器的输入。下部脑区被映射到图像编码器，上部脑区被映射到文本编码器。如此一来可以这让该系统能够使用图像组成和语义内容进行重建。首先是解码分析。研究中采用的LDM模型，由图像编码器ε、图像解码器D、文本编码器τ组成。研究者分别从早期和高级视觉皮层的fMRI信号中解码出重建图像z以及相关文本c的潜在表征，将其作为输入，由自动编码器生成复现出的图像Xzc。接着，研究者还建立了一个编码模型，对来自LDM不同组件的fMRI信号进行预测，从而探索LDM的内部运作机制。研究人员使用来自自然场景数据集（NSD）的fMRI图像进行实验，并测试他们是否能使用Stable Diffusion来重建受试者看到的东西。可以看到，编码模型与LDM相关潜像预测精度，最后一种模型在大脑后部视觉皮层产生的预测精确度是最高的。对一个主体的视觉重建结果显示，只用z重建的图像在视觉上与原始图像一致，但不能捕捉到语义内容。而只用c重建的图像具有较好的语义保真度，但视觉一致性较差，使用zc重建的图像则可以同时具备高语义保真度和高分辨率。来自所有受试者对同一图像的重建结果显示，重建的效果在不同受试者之间是稳定且比较准确的。而在具体细节方面的差异，可能来源于不同个体感知经验或者数据质量的不同，而非是重建过程有误。最后，定量评估的结果被绘制成图表。种种结果显示，研究中采用的方法不仅可以捕捉到低层次的视觉外观，而且还能捕捉到原始刺激物的高层次语义内容。