今天给大家介绍日本京都大学大学院医学研究科医学部教授Yasushi Okuno团队近期发表在nature machine intelligence上的关于如何利用深度学习技术DEFMap直接提取冷冻电镜密度图中蛋白质动态信息的文章。DEFMap仅使用低温冷冻电镜密度数据,获得了与分子动力学模拟和实验方法数据高度相关的动力学信息。此外,DEFMap成功地检测到与分子识别相关的动力学变化。DEFMap结合了深度学习、实验数据和分子动力学模拟,为蛋白质科学提供一种新的解决方案。
简介
三维结构和动力学信息对于蛋白质功能理解至关重要。低温冷冻电镜(cryo-EM)的单粒子分析技术(SPA)的突破使得研究人员可以对蛋白质的三维结构以原子或接近原子的分辨率进行解析。然而,由于蛋白质靶点较大且结构复杂,利用冷冻电镜分析蛋白质靶点的动力学信息依然富有挑战性。单粒子分析技术采用的样本利用了快速冷冻溶液,蛋白质拥有不同的构象,因此,蛋白质的动力学性质可以隐藏在重建的低温电磁图中。而从重建的3D低温电磁图的局部图强度得到的局部分辨率和原子动力学信息相关联,即较低的局部分辨率对应更灵活的区域。然而,局部分辨率可能会受人为影响,从而使得分析结果不准确。所以作者提出DEFMap,这是一种通过深度学习技术直接提取低温冷冻电镜密度图中与原子波动相关的动力学信息的方法。作者使用全原子分子动力学(MD)模拟和深度神经网络结合构建了一个模型,以根据冷冻电镜密度数据预测动力学信息。通过将结果与MD派生的和实验确定的动力学性质进行比较,并且该模型的性能可以利用未包含在训练数据集中的大分子进行验证。此外,DEFMap可以从单独的cryo-EM图谱中识别与分子识别相关的动力学变化及其伴随的变构效应,而无需进行其他实验(例如MD模拟)。该方法使多个研究领域相结合,例如深度学习,MD仿真和SPA技术,并简化了使用常规技术难以处理的动力学特性的研究。
模型框架
DEFMap利用EMDB和PDB中的大分子进行训练,在原子级进行MD(分子动力学)模拟。在训练数据构建阶段,动力学特性是从MD模拟计算的RMSF值(对于重原子)导出的。在训练阶段,DEFMap中的3D-CNN模型学习不同位置的动力学特征和密度数据之间的关系。在预测阶段,对于未包含在训练数据集中的其他低温冷冻电镜图像,训练模型根据输入密度数据预测动力学值。在这项研究中,25个大分子被用来验证和训练DEFMap模型,另外9个大分子被用来进行动力学预测和进一步的结构分析。具体实验模型和部分实验结果见图一。
图一:DEFMap,基于低温冷冻电镜图像的动力学特征提取。
总结
这项技术证明了可以从冷冻电镜密度数据中有效地提取与溶液中行为相关的特性,并且开发靶向药物或抗体来抑制例如SARS-CoV-2蛋白HR1基序及其S蛋白近端区域的动态扰动为对抗病毒感染提供了有效策略。另外,DEFMap模型的性能取决于图像分辨率,这可能是由于低分辨率图像会丢失详细的结构信息。对分辨率的依赖性表明,通过开发先进设备(如冷场发射枪)获得更高分辨率图像的不断进步,DEFMap的性能将得到提高。从处理密度数据的角度来看,使用基于局部分辨率锐化的图像训练模型,使数据集属性得到了均匀化,会提高DEFMap的性能。另外,使用其他大分子进行额外的模型训练可以提高模型的准确性和鲁棒性。在未来,DEFMap可能会加速数据驱动的结构研究,旨在了解蛋白质的功能,并制定针对各种疾病分子的靶向治疗策略。本研究将实验数据、深度学习方法和MD模拟相结合,并能从数据中准确提取动力学信息。该策略为实验科学、模拟科学和数据科学的结合提供了一条有效且多学科交叉的研究途径。
数据集
EMDB: https://www.ebi.ac.uk/pdbe/emdb/
Zenodo: https://doi.org/10.5281/zenodo.4317158