Nat. Commun | 预测RNA-蛋白质结合偏好的深度学习框架

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun | 预测RNA-蛋白质结合偏好的深度学习框架

image.png

1. 研究背景


RNA与蛋白质之间的相互作用在转录后的调节中起重大作用,因此需对RNA-蛋白质(RBP)之间的结合进行预测,但是实验手段的应用难以广泛开展。结构生物学实验只能检测某一个特定RNA与蛋白间的相互作用,而不能提供统计意义上的结合偏好的信息。而assay的方法可以提供结合的亲和力,但是没有办法抓住具体的结构上的结合构象的差异和细节。基于计算的手段由于具有高通量高效率的优点,正受到越来越多的重视。传统的计算手段通过从蛋白质氨基酸序列抽取特征来训练机器学习模型,因此预测精度低,而且预测的分辨率也只能局限于某个氨基酸是否是RNA结合位点。


沙特阿卜杜拉国王科技大学(KAUST)高欣课题组(http://sfb.kaust.edu.sa)与香港科技大学黄旭辉课题组和南方科技大学陈炜课题组合作,提出一种基于深度学习的RNA-蛋白质结合偏好的预测方法。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA各种组分的结合偏好。


2. 方法


2. 1 数据预处理


高欣课题组使用Protein Data Bank (PDB)作为数据集。PDB中的数据含有蛋白质表面的空间拓扑信息,但是由于有些数据来自同源蛋白质,存在着数据冗余的问题,其会带来偏置,降低模型的泛化能力。


为了解决这一问题,他们将PDB聚类(每个类中的条目至少有90%的RNA重合),然后从每个类中选取最好分辨的一个结构;如果一个结构中又有多个相同的蛋白质/RNA链,那么截取最好分辨的RNA留下。


2. 2 使用FEATURE获得特征向量


斯坦福大学Russ Altman研发的FEATRURE框架不仅考虑物理和结构特性,还考虑到了每个原子周围空间的径向分布。其能够保留更大范围的细节信息,从输入晶格的三维原子分布感知出蛋白质表面的物理化学特征并转化为特征向量。


2.3 多层分类


NucleicNet预测每个蛋白质表面晶格的局部物化特性是否适合与RNA结合,如果适合还将给出结合偏好。这是个多分类监督学习问题,预测每个晶格可能与磷酸(P)、核糖(R)、腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)结合或该晶格为非结合点(X)。


然而,正样本中R和P的数量比碱基AUCG的数量多得多,简单的调用深度学习模型训练面临着样本不平衡问题。这里采用多层分类来缓解这一问题:第一层,晶格被分类为4个类,即碱基,核酸,磷酸,非结合点,输出一个标准化四分类评分向量;如果第一层结果为碱基,则调用第二层,碱基被分类为A/U/C/G,同样输出一个标准化四分类评分向量,如图1所示。

image.png

图1 多层分类


2.4 训练阶段


由于ResNet具有处理梯度消失问题的能力且能够较快地收敛,选择其作为NucleicNet的基本架构。模型中有十六个Res模块、一个全连接层和一个作为四分类器的SoftMax层,其中每个Res模块由两个卷积层组成。模型中采用ReLu为激活函数,cross-entropy为损失函数,Adam为优化器。


2.5 获得序列标识图


对于每个被预测为最可能和碱基结合的晶格,对其得到的SoftMax向量计算信息量。信息量的计算公式如下:

image.png

舍弃P、R和X,对进行AUCG的概率归一化,乘以信息量即可得到序列标识图。如图2,生成三种经典RBP进行预测并生成序列标识图。

image.png

图3 上半部分预测(a)FBF2(b)hAgo2(c)Aa-RNase III三种蛋白质的RNA结合偏好,下半部分为生成的序列标识图


2.6 对RNA序列进行评分


NucleicNet对每个蛋白质表面结构的预测结果可以被总结为公式Q。其可以用来对任意一个输入RNA序列进行评分,用于评价其和蛋白质结合的能力。

image.png

3. 结果


3.1 模型评估


首先,对分类结果进行评估。作者们使用蛋白质数据库(PDB)作为数据集进行训练,实验采用交叉验证对模型进行评估,将数据的2/3作为训练集,1/3作为测试集。训练集中,RNA组分与蛋白质表面距离小于等于5埃的晶格为的作为正样本,其他为负样本。使用AUROC和F-1评分对模型进行评估,如表1。


image.png

image.png

表1 模型对每个分类的AUROC和F1-score结果


其次,对生成的序列标识图和Q评分进行评估。NucleicNet生成的结果与具有高准确率的实验手段RNAcompete(RNAC)生成的结果进行对比。用两种方法生成(a) PABPC1, (b) PCBP2, (c) PTBP1, (d) RBFOX1, (e) SNRPA, (f) SRSF2, (g) TARDBP, and (h) U2AF2八种蛋白质的标识序列,将其进行比较,可以看到二者生成的序列标识图大体一致。根据RNAC的Z-score分别生成最可能和最不可能与每种蛋白质结合的10个RNA序列。将这些序列用NucleicNet进行评分,发现NucleicNet能够很好地区分开由RNAC的Z评分得到的10个最高分和10个最低分序列,如图3所示。

image.png

图3 NucleicNet与RNAC对八种蛋白质生成的序列标识图和评分


3.2 与其他模型的对比


由于其他模型仅仅具有二分类(结合点和非结合点)功能,作者们只比较二分类能力。晶格内至少有一个蛋白质原子与一个RNA原子距离小于3.5埃(或5埃)时,该晶格作为正样本。选用距离蛋白质形心最近的30个晶格的进行MCC评分,如图4所示。

image.png

图4 在3.5埃和5埃两个尺度的蛋白质片段中,计算不同模型的MCC,其中NucleicNet表现最佳


4. 结论


高欣课题组提出一种基于深度学习的RNA-蛋白质结合偏好预测方法-NucleicNet。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA组分的结合偏好。实验结果显示其能有效预测RNA结合位点和结合偏好,在MCC的指标下优于目前最先进的模型。除此之外,对于已知的RNA结合蛋白(RBP),NucleicNet可以生成所结合的RNA的序列标识图并评估不同RNA序列与其结合的能力;对于其他的蛋白,NucleicNet可以预测其与RNA结合的可能性及结合位点,从而识别未知的RBP。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
9天前
|
机器学习/深度学习 存储 人工智能
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。
62 18
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
|
30天前
|
机器学习/深度学习 数据采集 搜索推荐
使用Python实现智能食品消费偏好预测的深度学习模型
使用Python实现智能食品消费偏好预测的深度学习模型
79 23
|
2月前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
55 7
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
DeepSpeed分布式训练框架深度学习指南
【11月更文挑战第6天】随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加。传统的单机训练方式已难以应对大规模模型的训练需求。
227 3
|
5月前
|
机器学习/深度学习 算法 TensorFlow
深入探索强化学习与深度学习的融合:使用TensorFlow框架实现深度Q网络算法及高效调试技巧
【8月更文挑战第31天】强化学习是机器学习的重要分支,尤其在深度学习的推动下,能够解决更为复杂的问题。深度Q网络(DQN)结合了深度学习与强化学习的优势,通过神经网络逼近动作价值函数,在多种任务中表现出色。本文探讨了使用TensorFlow实现DQN算法的方法及其调试技巧。DQN通过神经网络学习不同状态下采取动作的预期回报Q(s,a),处理高维状态空间。
79 1
|
5月前
|
测试技术 数据库
探索JSF单元测试秘籍!如何让您的应用更稳固、更高效?揭秘成功背后的测试之道!
【8月更文挑战第31天】在 JavaServer Faces(JSF)应用开发中,确保代码质量和可维护性至关重要。本文详细介绍了如何通过单元测试实现这一目标。首先,阐述了单元测试的重要性及其对应用稳定性的影响;其次,提出了提高 JSF 应用可测试性的设计建议,如避免直接访问外部资源和使用依赖注入;最后,通过一个具体的 `UserBean` 示例,展示了如何利用 JUnit 和 Mockito 框架编写有效的单元测试。通过这些方法,不仅能够确保代码质量,还能提高开发效率和降低维护成本。
64 0
|
5月前
|
UED 开发者
哇塞!Uno Platform 数据绑定超全技巧大揭秘!从基础绑定到高级转换,优化性能让你的开发如虎添翼
【8月更文挑战第31天】在开发过程中,数据绑定是连接数据模型与用户界面的关键环节,可实现数据自动更新。Uno Platform 提供了简洁高效的数据绑定方式,使属性变化时 UI 自动同步更新。通过示例展示了基本绑定方法及使用 `Converter` 转换数据的高级技巧,如将年龄转换为格式化字符串。此外,还可利用 `BindingMode.OneTime` 提升性能。掌握这些技巧能显著提高开发效率并优化用户体验。
72 0
|
5月前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习框架之争:全面解析TensorFlow与PyTorch在功能、易用性和适用场景上的比较,帮助你选择最适合项目的框架
【8月更文挑战第31天】在深度学习领域,选择合适的框架至关重要。本文通过开发图像识别系统的案例,对比了TensorFlow和PyTorch两大主流框架。TensorFlow由Google开发,功能强大,支持多种设备,适合大型项目和工业部署;PyTorch则由Facebook推出,强调灵活性和速度,尤其适用于研究和快速原型开发。通过具体示例代码展示各自特点,并分析其适用场景,帮助读者根据项目需求和个人偏好做出明智选择。
138 0
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
PAI DLC与其他深度学习框架如TensorFlow或PyTorch的异同
PAI DLC与其他深度学习框架如TensorFlow或PyTorch的异同
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
在深度学习中,数据增强是一种常用的技术,用于通过增加训练数据的多样性来提高模型的泛化能力。`albumentations`是一个强大的Python库,用于图像增强,支持多种图像变换操作,并且可以与深度学习框架(如PyTorch、TensorFlow等)无缝集成。
在深度学习中,数据增强是一种常用的技术,用于通过增加训练数据的多样性来提高模型的泛化能力。`albumentations`是一个强大的Python库,用于图像增强,支持多种图像变换操作,并且可以与深度学习框架(如PyTorch、TensorFlow等)无缝集成。