人工智能预测RNA和DNA结合位点,以加速药物发现

简介: 人工智能预测RNA和DNA结合位点,以加速药物发现



对核酸大分子,特别是 RNA 的基于结构的药物设计(SBDD)是一个获得动力的研究方向,已经产生了几种 FDA 批准的化合物。与蛋白质类似,SBDD 中 RNA 的关键组成部分之一是正确识别推定候选药物的结合位点。

RNA 具有共同的结构组织,再加上这些分子的动态特性,使得识别小分子的结合位点变得具有挑战性。此外,需要基于结构的方法,因为仅序列信息不考虑核酸大分子的构象可塑性。深度学习有望解决结合位点检测问题,但需要大量的结构数据,与蛋白质相比,这对于核酸来说非常有限。

俄罗斯斯科尔科沃科技学院的研究人员,在一项研究中组建了一组约 2000 个核酸小分子结构,包括约 2500 个结合位点,比以前使用的大 40 倍左右的数据集,并展示了一个基于该结构数据集的深度学习方法 BiteNetN,以检测核酸结构中的结合位点。BiteNetN 使用任意核酸复合物进行操作,显示出最先进的性能,并且有助于分析不同的构象和突变变体。

该研究以「Structure-based deep learning for binding site detection in nucleic acid macromolecules 」为题,于 2021 年 11 月 26 日发布在《NAR Genomics and Bioinformatics》。

RNA 分子在许多细胞过程中至关重要,例如基因调控和细胞信息传递,因此代表了一类有前途的药理靶点。RNA 靶向药物发现活动探索了各种观点,包括 DNA G-四链体稳定剂的设计、靶向核糖开关的抗生素、反义RNA和靶向 RNA 的抗病毒药物等等。扩展可成药基因组的 RNA 靶标,包括那些与「不可成药」蛋白质靶标或非编码 microRNA 相关的靶标,尤其令人感兴趣。

然而,RNA 药物开发存在许多障碍,其中包括与低化学多样性和 RNA 结构的动态特性有关。与蛋白质类似,RNA 分子高度结构化以形成结合位点,小分子可以通过这些位点调节它们。因此,需要高效的、结构特异性的 RNA 小分子配体结合位点检测器来推进 RNA 靶向药物的发现。

「例如,核酸 DNA 和 RNA 可以参与信号传递,我们可以针对它们所参与的信号传递或任何其他过程。对于不可治疗的蛋白质靶标,例如无序蛋白质或缺乏方便结合位点的蛋白质,这可能是一种有希望的策略。」该研究的首席研究员 Petr Popov 说,「然后还有身体外来的致病性 RNA,例如病毒,如 SARS-CoV-2 或 HIV。」

尽管有大量的蛋白质特异性方法,但用于预测 RNA-小分子相互作用位点的方法数量非常有限,大致可分为基于知识的方法、经验方法和机器学习方法。基于知识的方法,例如 InfoRNA,在已知 RNA-小分子结合位点的数据库中挖掘 RNA 基序。经验方法,例如 Rsite、Rsite2 或 RBind,依赖于 RNA 结构的简单几何特征,并寻找这些特征的极端作为结合位点的指标。

最近,科学家开发了一种机器学习方法 RNAsite;它包含一个随机森林模型,该模型使用计算出的 RNA 的基于结构和基于序列的特征进行操作。使用深度学习有望改进 RNA 结合位点检测器;然而,由于可用的 RNA 结构数量相对较少,它受到了阻碍。

事实上,虽然最近用于蛋白质-小分子或蛋白质-肽结合位点检测的深度学习方法依赖于数千个示例的数据集,但 RNAsite 模型仅在 60 个 RNA-小分子复合物上进行了训练。

在这项研究中,该团队展示了第一个基于结构的深度学习方法来预测核酸-小分子配体结合位点。为了克服小数据集的问题,研究人员考虑了 RNA 和 DNA 复合物、与晶体对称配对形成的交互界面、NMR 模型和数据增强。设计组建了一个包含 2000 个核酸小分子结构的数据集,包括从蛋白质数据库(PDB)检索到的 2500 个结合位点接口。

接下来,研究人员开发了基于体素的核链结构视图,每个体素代表物理空间中的一个 1Å3 立方体,并存储对应于特定类型原子密度的八个通道。然后将体素化的表示馈送到 3D 卷积神经网络,该网络对与结合位点有关的核酸结构中的片段进行评分。获得的基于结构的深度学习模型称为 BiteNetN,可预测结合位点界面中心的坐标、每个中心的概率分数以及结合位点中每个核苷酸的分数。

BiteNetN

数据集

为了训练 BiteNetN 深度学习模型,研究人员构建了一个包含 1933 个核酸-配体复合物的大型数据集,包括不同类型的 1065 个 DNA 和 886 个 RNA 结构(18 个结构同时包含 DNA 和 RNA)。

模型

图示:BiteNetN的工作流程。(来源:论文)

研究人员使用 3D CNN 架构在精选的核酸结构上训练 BiteNetN,证明在蛋白质-小分子分子和蛋白质-肽结合位点检测方面表现最佳,上图说明了 BiteNetN 工作流程。

图示:演示 BiteNetN 适用于不同类型的 DNA 或 RNA 结构。(来源:论文)

与其他方法的比较

为了比较 BiteNetN 与其他方法的性能,研究人员获得了四种不同方法的结合位点预测:Rsite、Rsite2、RBind、RNAsite,用于十个测试集。研究人员计算了现有方法的加权 AP、ROC AUC 和 MCC 性能指标,以及在设计的数据集上训练的 10 个 BiteNetN 模型。

「大多数早期的方法只适用于 RNA,特别是单链。我们的方法适用于 DNA 和两条或更多条链。我们甚至可以看到当多个分子纠缠在一起时出现的额外位点。」论文的作者 Igor Kozlovskii 说。

图示:数据集上的加权 AP、ROC AUC 和 MCC 性能指标。(来源:论文)

实例探究

结合位点是大分子的结构和动态特性;因此,预测结合位点的方法应区分具有开放和折叠结合位点的构象,并适用于构象集合的分析。为了证明 BiteNetN 用于相关的核酸配体结合位点检测问题,研究人员测试了 HIV-1 的反式激活反应区域ATP 适体

图示:与小分子结合的七种 TAR RNA 结构的 AP 、ROC AUC 和 MCC 性能指标。(来源:论文)


图示:在野生型 ATP 适体及其 G6A 突变体的 ATP 结合和 ATP 未结合 MD 轨迹上计算的结合位点得分。(来源:论文)


总之,该团队想强调的是,核酸结构在原子组成和结构折叠上都不同于蛋白质结构,因此难以直接应用蛋白质结合位点检测方法。在这里,该团队为涵盖各种核苷酸的核酸结构设计了一种特定的类型,适用于 DNA 和 RNA,以及它们的多链复合物。他们设计的 BiteNetN,在构建的测试集上始终优于其他方法。BiteNetN 具有特定的构象,正如我们通过分析结合小分子的七种不同 HIV-1 TAR RNA 结构所证明的那样。它有助于大规模分析,例如构象集合或突变变异分析,如 ATP 适体案例研究所示。最后,BiteNetN 可以使用 RNA 和 DNA 复合物,包括多条链。开源链接:https://sites.skoltech.ru/imolecule/tools/bitenet/论文链接:https://academic.oup.com/nargab/article/3/4/lqab111/6441762#316112271相关报道:https://phys.org/news/2022-01-artificial-intelligence-rna-dna-sites.html

相关文章
|
机器学习/深度学习 人工智能 机器人
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
|
人工智能
《人工智能加速药物研发-技术和应用》电子版地址
人工智能加速药物研发-技术和应用
80 0
《人工智能加速药物研发-技术和应用》电子版地址
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
820 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 自然语言处理
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
281 0
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
|
机器学习/深度学习 人工智能 算法
JMC | 人工智能在药物发现中的应用:走进广阔的天地
JMC | 人工智能在药物发现中的应用:走进广阔的天地
178 0
JMC | 人工智能在药物发现中的应用:走进广阔的天地
|
机器学习/深度学习 人工智能 算法
JMC | 人工智能在药物合成中的当前和未来作用(2)
JMC | 人工智能在药物合成中的当前和未来作用(2)
280 0
JMC | 人工智能在药物合成中的当前和未来作用(2)
|
机器学习/深度学习 人工智能 搜索推荐
2016 谷歌 I/O 大会:人工智能成为产品DNA,看谷歌如何践行AI-First
继微软、Facebook 开发者大会之后,谷歌在今日凌晨(北京时间)召开了自己的 I/O 大会。我们发现,这里面没有其他公司尚未研发的全新产品。不少产品都有现实对标。
197 0
2016 谷歌 I/O 大会:人工智能成为产品DNA,看谷歌如何践行AI-First
|
机器学习/深度学习 人工智能
【云栖精彩演讲】任峰:人工智能重新定义药物研发
本文为英矽智能首席科学官,药物研发负责人任峰在2021年云栖大会上的分享,从传统药物研发的局限性、人工智能在新药研发领域的发展、人工智能在新药研发的思考三个部分来介绍人工智能如何重新定义药物研发。
13191 0
【云栖精彩演讲】任峰:人工智能重新定义药物研发
|
机器学习/深度学习 人工智能 安全
利用人工智能众包数据,加速药物发现
利用人工智能众包数据,加速药物发现
116 0
|
机器学习/深度学习 存储 人工智能
人工智能技术如何在药物开发中识别正确的药物成分
在采用数字技术时,制药行业的应用往往比较缓慢。迄今为止,很多制药厂商已经推迟了使用人工智能和机器学习策略开发药物的想法。人工智能有可能在药物开发领域掀起创新浪潮。然而,制药行业应努力弥补应用于药物发现和开发过程之间的差距。
346 0
人工智能技术如何在药物开发中识别正确的药物成分
下一篇
DataWorks