深度学习精确预测RNA,仅需训练18种已知结构:斯坦福研究登上Science封面

简介: 我们距离精确预测 DNA 结构还远吗?

目前,使用人工智能预测化合物分子结构是一个火热的研究课题,DeepMind 蛋白质结构预测工具 AlphaFold2 证明了这一点。但应看到,实现分子结构准确预测的背后需要庞大的数据集。斯坦福大学的一项研究打破了这一限制,他们提出的机器学习方法仅使用很少的数据即实现了准确的 RNA 结构预测。


确定生物分子的 3D 形状是现代生物学和医学发现中最困难的问题之一。许多公司和研究机构花费数百万美元来确定分子结构,却也常常无果。


来自斯坦福大学的研究团队利用机器学习的方法解决了这个难题。在计算机科学系副教授 Ron Dror 的指导下,斯坦福大学博士生 Stephan Eismann 和 Raphael Townshend 巧妙地使用机器学习技术开发了一种通过计算预测生物分子准确结构的方法。并且即使仅从少数已知结构中学习,他们的方法也能成功,使其适用于结构最难通过实验确定的分子类型。


8 月 27 日,该团队与斯坦福大学生物化学系副教授 Rhiju Das 合作的研究论文在《Science》上发表并登上封面。

微信图片_20211206111211.jpg


论文地址:http://science.sciencemag.org/content/373/6558/1047

在此之前,去年 12 月该团队的一篇研究论文已经登上了生物医学期刊《Proteins》。

微信图片_20211206111215.jpg


论文地址:https://onlinelibrary.wiley.com/doi/10.1002/prot.26033

在《Proteins》的论文中,研究团队介绍说:该研究建立的神经网络架构从包含数万个原子的分子结构中进行端到端的学习,其中涉及基于点的原子表示、旋转和平移的等变性、局部卷积和分层子采样操作。

两篇论文的主要作者 Townshend 说:「结构生物学是对分子形状的研究,结构决定功能。」该团队设计的算法不仅可以预测准确的分子结构,还能够解释不同分子的工作原理,该方法将适用于基础生物学研究、药物研发等。具体来讲,团队成员 Eismann 以蛋白质举例说明:「蛋白质是执行各种功能的分子机器。为了执行它们的功能,蛋白质通常会与其他蛋白质结合。如果已知一对蛋白质与疾病有关,并且知道它们在三维条件下如何相互作用,医学上就可以尝试用一种药物非常具体地针对这种相互作用。」

该研究的方法已经在蛋白质复合物和 RNA 分子方面取得了成功。正如研究团队成员 Dror 所说:「机器学习近来取得的大多数进展都需要大量数据进行训练。而该研究的方法在训练数据很少的情况下取得成功的事实意味着:相关方法可以解决许多数据稀缺的领域中未解决的问题」,因此该方法可能具有巨大潜力。

使用少量数据实现 RNA 准确结构预测

RNA 分子的 3D 结构对 RNA 分子发挥自身功能至关重要,在药物发现中也很有意义。然而,已知的 RNA 结构很少,并且通过计算来预测 RNA 结构极具挑战性。

而斯坦福大学的这项研究使用机器学习(ML)的方法,只使用 18 种已知的 RNA 结构进行训练,就能够识别出准确的结构模型,同时无需这些结构模型的定义特性。通过这种机器学习方法得到的评分函数——原子旋转等变评分器(Atomic Rotationally Equivariant Scorer, ARES)显著优于以往方法。

下图为训练集中的 18 种 RNA 结构图示。

微信图片_20211206111222.jpg


具体地,为了训练 ARES,研究者使用了 1994 年至 2006 年之间已发表的 18 个 RNA 分子,并利用 Rosetta FARFAR2 采样方法生成了每个 RNA 的 1000 个结构模型,同时没有使用任何已知结构。接着,他们优化了 ARES 神经网络的参数,使其输出尽可能匹配每个模型对应结构的均方根误差(RMSD)。

下图 1 为 ARES 网络,其中 A 表示:仅给出原子坐标和元素类型,ARES 即可预测结构模型的准确率;B 表示利用 ARES 的 RNA 结构预测;C 表示包含 18 种已有小型 RNA 结构的训练集;D 表示包含新的、更大 RNA 结构的基准集。

微信图片_20211206111227.jpg


下图 2 展示了 ARES 显著优于以往识别准确结构模型的评分函数。A 表示评分最佳结构模型的 RMSD;B 表示 10 个评分最佳结构模型中最低的 RMSD;C 表示无限接近评分最佳结构模型的排名;D 表示 2007 年以来评分最佳结构模型的 RMSD。

微信图片_20211206111230.jpg


ARES 在社区范围内的 Blind RNA 结构预测挑战赛「RNA Puzzles」中实现了 SOTA 结果。如下图 3 所示,A 表示 ARES 与其他方法的 Blind 预测准确率结果对比;B 表示 ARES 预测的晶体结构;C 表示其他方法实现的最佳晶体结构预测。

微信图片_20211206111234.jpg


此外,ARES 还能学习识别事先没有明确说明的 RNA 结构的关键特征。下图 4A 表示 ARES 学习螺旋宽度以实现最优的碱基配对;4B 表示学习识别关键的 RNA 特征。

微信图片_20211206111237.jpg


就其优势而言,斯坦福大学的方法可以基于少量数据进行有效学习,克服了标准深度神经网络的主要限制。并且该方法仅使用原子坐标作为输入,不包含特定的 RNA 信息,因此适用于解决结构生物学、化学、材料科学等领域的各种问题。

作者简介

微信图片_20211206111240.png


共同一作 Raphael Townshend 是分子和药物设计 AI 初创公司 Atomic AI 的 CEO。目前,他在斯坦福 AI 实验室攻读博士,研究兴趣包括机器学习、结构生物学、高性能计算和计算机视觉。

微信图片_20211206111243.jpg


通讯作者之一 Ron Dror 是斯坦福大学计算机科学系副教授,也是斯坦福 AI 实验室所属一个研究小组的负责人,专注于使用计算机技术解决生物学和药物发现的基础问题。作为高性能计算、机器学习、图像分析、结构生物学和药物设计等领域的专家,他还教授计算机生物学和机器学习,并为技术和制药企业提供咨询。

参考链接:https://raphael.tc.com/https://drorlab.stanford.edu/rondror.htmlhttps://news.stanford.edu/2021/08/26/ai-algorithm-solves-structural-biology-challenges/https://www.genengnews.com/news/rna-structures-predicted-with-uncanny-accuracy-by-unbiased-ai/

相关文章
|
4月前
|
机器学习/深度学习 算法 测试技术
深度学习环境搭建笔记(二):mmdetection-CPU安装和训练
本文是关于如何搭建深度学习环境,特别是使用mmdetection进行CPU安装和训练的详细指南。包括安装Anaconda、创建虚拟环境、安装PyTorch、mmcv-full和mmdetection,以及测试环境和训练目标检测模型的步骤。还提供了数据集准备、检查和网络训练的详细说明。
273 5
深度学习环境搭建笔记(二):mmdetection-CPU安装和训练
|
4月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
94 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
2月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型的分布式训练
使用Python实现深度学习模型的分布式训练
202 73
|
3月前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
175 6
|
3月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
116 8
|
3月前
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术研究进展###
本文旨在探讨深度学习在图像识别领域的最新研究进展,重点分析卷积神经网络(CNN)的技术创新、优化策略及其在实际应用中的成效。通过综述当前主流算法结构、损失函数设计及数据集增强技巧,本文揭示了提升模型性能的关键因素,并展望了未来发展趋势。尽管未直接涉及传统摘要中的研究背景、方法、结果与结论等要素,但通过对关键技术点的深度剖析,为读者提供了对领域现状与前沿动态的全面理解。 ###
|
4月前
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
146 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
3月前
|
机器学习/深度学习 自然语言处理 并行计算
DeepSpeed分布式训练框架深度学习指南
【11月更文挑战第6天】随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加。传统的单机训练方式已难以应对大规模模型的训练需求。
410 3
|
4月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
4月前
|
机器学习/深度学习 算法 TensorFlow
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。
797 0
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决