Nat. Mach. Intel. | 深度学习连提取冷冻电镜图蛋白质动力学信息都搞定了!

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Mach. Intel. | 深度学习连提取冷冻电镜图蛋白质动力学信息都搞定了!

image.png

今天给大家介绍日本京都大学大学院医学研究科医学部教授Yasushi Okuno团队近期发表在nature machine intelligence上的关于如何利用深度学习技术DEFMap直接提取冷冻电镜密度图中蛋白质动态信息的文章。DEFMap仅使用低温冷冻电镜密度数据,获得了与分子动力学模拟和实验方法数据高度相关的动力学信息。此外,DEFMap成功地检测到与分子识别相关的动力学变化。DEFMap结合了深度学习、实验数据和分子动力学模拟,为蛋白质科学提供一种新的解决方案。


简介


三维结构和动力学信息对于蛋白质功能理解至关重要。低温冷冻电镜(cryo-EM)的单粒子分析技术(SPA)的突破使得研究人员可以对蛋白质的三维结构以原子或接近原子的分辨率进行解析。然而,由于蛋白质靶点较大且结构复杂,利用冷冻电镜分析蛋白质靶点的动力学信息依然富有挑战性。单粒子分析技术采用的样本利用了快速冷冻溶液,蛋白质拥有不同的构象,因此,蛋白质的动力学性质可以隐藏在重建的低温电磁图中。而从重建的3D低温电磁图的局部图强度得到的局部分辨率和原子动力学信息相关联,即较低的局部分辨率对应更灵活的区域。然而,局部分辨率可能会受人为影响,从而使得分析结果不准确。所以作者提出DEFMap,这是一种通过深度学习技术直接提取低温冷冻电镜密度图中与原子波动相关的动力学信息的方法。作者使用全原子分子动力学(MD)模拟和深度神经网络结合构建了一个模型,以根据冷冻电镜密度数据预测动力学信息。通过将结果与MD派生的和实验确定的动力学性质进行比较,并且该模型的性能可以利用未包含在训练数据集中的大分子进行验证。此外,DEFMap可以从单独的cryo-EM图谱中识别与分子识别相关的动力学变化及其伴随的变构效应,而无需进行其他实验(例如MD模拟)。该方法使多个研究领域相结合,例如深度学习,MD仿真和SPA技术,并简化了使用常规技术难以处理的动力学特性的研究。


模型框架


DEFMap利用EMDB和PDB中的大分子进行训练,在原子级进行MD(分子动力学)模拟。在训练数据构建阶段,动力学特性是从MD模拟计算的RMSF值(对于重原子)导出的。在训练阶段,DEFMap中的3D-CNN模型学习不同位置的动力学特征和密度数据之间的关系。在预测阶段,对于未包含在训练数据集中的其他低温冷冻电镜图像,训练模型根据输入密度数据预测动力学值。在这项研究中,25个大分子被用来验证和训练DEFMap模型,另外9个大分子被用来进行动力学预测和进一步的结构分析。具体实验模型和部分实验结果见图一。

image.png

图一:DEFMap,基于低温冷冻电镜图像的动力学特征提取。


总结


这项技术证明了可以从冷冻电镜密度数据中有效地提取与溶液中行为相关的特性,并且开发靶向药物或抗体来抑制例如SARS-CoV-2蛋白HR1基序及其S蛋白近端区域的动态扰动为对抗病毒感染提供了有效策略。另外,DEFMap模型的性能取决于图像分辨率,这可能是由于低分辨率图像会丢失详细的结构信息。对分辨率的依赖性表明,通过开发先进设备(如冷场发射枪)获得更高分辨率图像的不断进步,DEFMap的性能将得到提高。从处理密度数据的角度来看,使用基于局部分辨率锐化的图像训练模型,使数据集属性得到了均匀化,会提高DEFMap的性能。另外,使用其他大分子进行额外的模型训练可以提高模型的准确性和鲁棒性。在未来,DEFMap可能会加速数据驱动的结构研究,旨在了解蛋白质的功能,并制定针对各种疾病分子的靶向治疗策略。本研究将实验数据、深度学习方法和MD模拟相结合,并能从数据中准确提取动力学信息。该策略为实验科学、模拟科学和数据科学的结合提供了一条有效且多学科交叉的研究途径。


数据集


PDB: https://www.rcsb.org/


EMDB: https://www.ebi.ac.uk/pdbe/emdb/


Zenodo: https://doi.org/10.5281/zenodo.4317158


目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
|
11月前
|
机器学习/深度学习 资源调度 自然语言处理
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
11352 0
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
|
机器学习/深度学习 存储 自然语言处理
【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
什么是基于深度学习的文本信息抽取? **信息抽取 (Information Extraction)** 是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始数据,输出的是固定格式的信息点,即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功......
【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
|
机器学习/深度学习 自然语言处理 测试技术
Nat. Commun.|概率蛋白质序列模型的生成能力
Nat. Commun.|概率蛋白质序列模型的生成能力
133 0
Nat. Commun.|概率蛋白质序列模型的生成能力
|
机器学习/深度学习 NoSQL 测试技术
Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略
Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略
176 0
Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略
|
机器学习/深度学习 数据可视化 数据挖掘
Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架
Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架
318 0
Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架
|
机器学习/深度学习 数据可视化
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
265 0
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
|
10天前
|
Linux 虚拟化
VMware workstation 中centos7虚拟机在nat模式下怎么配置网卡,指定我想要的IP并且可以联网
https://blog.csdn.net/2302_78534730/article/details/132825156?spm=1001.2014.3001.5502
131 0
|
2月前
|
弹性计算 Linux 网络安全
三步搭建VPC专有网络NAT网关,配置SNAT和DNAT规则(补充版)
申明:该文档参考于用户 “帅宝宝”的文档进行的优化,新增永久生效的方式
284 1