由此看来,实验表明图像和文本解码的结合提供了准确的重建。研究人员表示,受试者之间在准确性方面存在差异,但这些差异与fMRI图像的质量相关。根据该团队的说法,重建的质量与目前SOTA的方法相当,但不需要训练其中用到的AI模型。与此同时,该团队还利用从fMRI数据中得出的模型来研究Stable Diffusion的各个构建块,例如语义内容是如何在逆向扩散过程中产生的,或者在U-Net中发生什么过程。在去噪过程的早期阶段,U-Net 的瓶颈层(橙色)产生最高的预测性能,随着去噪过程的进行,早期层(蓝色)进行对早期视觉皮层活动的预测,瓶颈层则转向高级视觉皮层。这也就是说,在扩散过程刚开始时,图像信息压缩在瓶颈层中,伴随着去噪,U-Net层之间的分离出现在视觉皮层中。此外,该团队正在对扩散不同阶段的图像转换进行定量解释。通过这种方式,研究人员旨在从生物学的角度为更好地理解扩散模型做出贡献,这些模型被广泛使用,但人们对它们的理解仍然很有限。
人脑画面,早被AI解码了?
多年来,研究人员一直在使用人工智能模型来解码来自人类大脑的信息。大多数方法的核心,通过使用预先录制的fMRI图像作为文本或图像的生成性AI模型的输入。例如,在2018年初,一组来自日本的研究人员展示了一个神经网络如何从fMRI录音中重建图像。2019年,一个小组从猴子的神经元中重建了图像,Meta的研究小组在Jean-Remi King的领导下,发表了新的工作,例如从fMRI数据中得出文本。2022年10月,德克萨斯大学奥斯汀分校的一个团队表明,GPT模型可以从fMRI扫描中推断出描述一个人在视频中看到的语义内容的文本。2022年11月,新加坡国立大学、香港中文大学和斯坦福大学的研究人员使用了MinD-Vis扩散模型从fMRI扫描中重建图像,其准确性明显高于当时的可用方法。再往前倒推的话,有网友指出了「根据脑电波生成图像至少从2008年开始就有了,以某种方式暗示着Stable Diffusion能够读懂人的思想,简直太荒谬了。」这项由加利福尼亚大学伯克利分校发表在Nature的论文称,利用视觉解码器可以将人的脑电波活动转换成图像。要说追溯历史,还有人直接拿出1999年,斯坦福李飞飞的一项关于从大脑皮层重建图像的研究。李飞飞也动手点评转发,称自己那时还是一名大学实习生。还有2011年,UC伯克利的一项研究使用功能磁共振成像(fMRI)和计算模型,初步重建了大脑的「动态视觉图像」。也就是说,他们重现了人们看过的片段。但是相比起最新研究,这项重建完全称不上「高清」,几乎无法辨认。
作者介绍
Yu TakagiYu Takagi是大阪大学的一名助理教授。他的研究兴趣是计算神经科学和人工智能的交叉领域。在博士期间,他在ATR脑信息交流研究实验室研究使用功能性磁共振成像(fMRI)从全脑功能连接预测不同个体差异的技术。最近,他在牛津大学的牛津人脑活动中心和东京大学的心理学系,利用机器学习技术了解复杂决策任务中的动态计算。Shinji NishimotoShinji Nishimoto是大阪大学的教授。他的研究方面是对大脑中视觉和认知处理的定量理解。更具体地说,Nishimoto教授团队的研究重点是通过建立自然感知和认知条件下诱发的大脑活动的预测模型来理解神经处理和代表。有网友问作者,这项研究能否用于解梦?「将同样的技术应用于睡眠期间的大脑活动是可能的,但这种应用的准确性目前还不清楚。」
看过这项研究后:摄神取念术(Legilimency)妥妥的有了。参考资料:https://sites.google.com/view/stablediffusion-with-brain/https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2