Nat. Commun | 结合二维深度神经网络和迁移学习 预测RNA二级结构

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun | 结合二维深度神经网络和迁移学习 预测RNA二级结构

image.png

研究背景


RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见的种类有rRNA、mRNA、tRNA。近年来越来越多的实验表明RNA似乎无处不在、无所不能,而事实上,编码用的mRNA才占1.5%,而非编码RNA则占据了人类基因组的75%。但是我们对绝大多数的非编码RNA了解甚少,主要原因是缺乏结构信息,因为结构决定功能,不知道结构,我们就无法推测其功能。


RNA的三维结构往往是在先形成的二级结构的框架上堆叠而成的,所以知道二级结构对于RNA结构建模和理解其功能机制至关重要。二级结构是指RNA序列各个位置有氢健互补配对的碱基(例如第i个碱基与第j个碱基(i:j)有氢健相连),而邻近不间断多个配对碱基的堆积(i:j ,i-1:j+1,i-2:j+2等)所形成的螺旋长茎区是二级结构稳定的关键。如下图所示,二级结构的二维描述是螺旋茎区加无碱基配对的各种环状结构(Hairpin Loop发夹环;Multiple Loop多环;Internal Loop内环;Bulge Loop凸环),它也可以通过一维的碱基连接图来显示。

image.png

虽然二级结构是关于碱基的配对,但碱基的配对不仅仅有二级结构的信息。RNA序列通常是由四个碱基(A,C,G,U)的排列组合所组成。在两个碱基配对里,AU和GC配对最稳定、被称为Watson-Crick配对,GU是次稳定的配对(Wobble base pair)。其它碱基之间也能配对,它们被称为非规范碱基对,往往需要靠三维结构才能稳定下来。需要三维结构来稳定的还有孤碱基对(没有多个配对碱基的堆积)以及各种假结结构(Pseudoknot)(例如,一个茎环结构的茎的一半插入了另一个茎环结构的茎结构,相吻发卡(kissing hairpin),发卡-突环接触等,图二)。所以,完整的RNA碱基配对信息只有通过昂贵而且费时的三维结构测定才能精确获得。


但是最近十多年来,预测二级结构的精度一直在一个水平上徘徊不前(50%的覆盖率,75-83%的精确度),这主要是下列原因:1)目前几乎所有的方法是基于折叠的算法(folding algorithm),需要一个能量函数来寻找最低自由能的状态,但目前的能量函数过于简单,无法描述复杂的RNA相互作用,2)大多数二级结构预测只关心长螺旋茎区的规范碱基对(AU,GC,和GU),而不考虑孤碱基对和非规范碱基对,这无疑会对寻找最低自由能带来不利的影响,3)没有什么好的方法来获得假结,因为假结对环境非常敏感。


与RNA二级结构预测对应的是蛋白质氨基酸残基间的接触图预测(contact map prediction)。最近几年来,通过深度学习,蛋白质二级结构和接触图预测的精确度有了极大的改善,并且提出了Raptor-X和SPOT-Contact等方法。本文受这些方法的启发,提出了一种可以用于预测RNA二级结构的深度学习模型—SPOT-RNA。该方法在预测假节、孤碱基对、和非规范碱基对(需要三维结构稳定的碱基对)上的改进更大。这个结果表明,用折叠算法来预测RNA二级结构的精确度上限可以用折叠以外的方法(深度学习+迁移学习)来打破。

image.png

方法介绍与结果展示


SPOT-RNA主要包括两个部分:(1)初始训练,通过从bpRNA (具有超过100,000个自动注释二级结构的RNA序列的大型数据库)构建非冗余RNA序列集来训练ResNets和LSTM模型(2)迁移学习,将第一步训练后的模型迁移到另一个高分辨率非冗余RNA序列数据集进行进一步训练和预测。


1


初始训练(Initial training by bpRNA)


初始训练是使用包含13,419个RNA的数据集,进一步随机分成三部分,10,814个RNA作为训练集(TR0),1300个RNA作为验证集(VL0)和1,305个RNA作为测试集(TS0)。将数据以ont-hot形式输入,训练了多个参数不同的深度学习模型,并挑选和集成了在VL0上表现最好的五个模型,结果如下表所示。模型在验证集和测试集上的MCC相差不大,验证了模型良好的鲁棒性。

image.png

2


迁移学习(Transfer learning with RNA structures)


将初始训练得到的模型转移到高分辨率非冗余的新数据集上,新数据集的训练集(TR1)、验证集(VL1)以及测试集(TS1)分别为120、30和67个RNA,并且使用CD-HIT-EST和BLAST-N对数据进行了进一步处理来消除序列同源性。如下图所示,迁移学习的各项指标都全面超过初始训练和直接训练,验证了迁移学习的有效性。

image.png

3

RNA二级结构预测方法的比较

如下图所示,a展示了集成迁移模型和其他十二种方法在TS1上的召回率曲线,b展示了各种方法在单个RNA上F1值的分布情况,方框的中心和上下边框分别表示中位数、75百分位数和25百分位数,离群点(outliers)用“+”来表示。

image.png

4


去除非规范碱基对后模型性能比较


上述比较实验对于SPOT-RNA来说比较有优势,因为几乎所有的其他方法都只能对标准碱基对进行预测,其中也包括Watson-Crick碱基对和Wobble碱基对。所以为了证明SPOT-RNA的有效性,本文将数据集中的非规范碱基对剔除后再一次进行了实验对比,实验结果表示SPOT-RNA仍然具有最佳的表现,相比于第二名至少有6%的效果提升,结果如下图所示:

image.png

5


与假节关联的碱基对预测问题


与假节关联的碱基对一直是个十分具有挑战性的问题,因为他们往往与难以预测的三级相互作用相关。为了能够进行更加直观的比较,论文将假结对定义为移除后便成为无假结二级结构的最小碱基对数。下图给出了各种方法的实验效果对比,尽管所有模型在假节上的效果都表现不佳,但SPOT-RNA的F1得分相比于第二名仍然提高了52%。


image.png

6

在不同基元的二级结构上的性能比较

RNA的二级结构根据不同的基元具有不同的结构类型,使用bqRNA对每一个二级结构根据基元来分类就能得到不同的类别,针对这些类别分别进行实验,虽然在某些类别上的F1得分略低于其他方法,但是在大多数类别上均优于其他方法。

image.png

7


在TS2上的性能比较


为了进一步验证模型性能,使用NMR构建了另一个包含39个RNA二级结构的测试集TS2,与TS1相同,TS2也使用CD-HIT-EST和BLAST-N消除了冗余性。下图a展示了SPOT-RNA以及其他方法在TS2上的精度-召回率曲线,SPOT-RNA的表现仍然最佳。此外,下图b展示了F1评分在中位数、25百分位和75百分位数上的分布。SPOT-RNA以最小波动率达到最高的中位F1评分。但在此处没有对假节预测的效果进行比较,原因是TS2的假节中碱基对数量太少(仅有21对),无法进行有说服力的实验。

image.png

8

在最新的6个RNA上的性能比较

作者还收集了近期刚得知其二级结构的6个RNA,并在其上进行了对比实验,实验结果如下,除了d和f以外,SPOT-RNA的F1得分均高于其他方法。

image.png

结论


本文提出了一个基于RNA序列来预测其二级结构的深度学习模型—SPOT-RNA,该方法的主要优点是可以对所有的碱基对进行训练和预测,而相比之下,基于折叠的方法则必须有精确的能量参数来捕获非正则碱基对,并且需要复杂的算法来进行全局最小搜索来对假节点配对进行解释。作者还在多个数据集上用不同的评价指标分别进行了对比实验,证明了SPOT-RNA的鲁棒性和有效性。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 TensorFlow
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
56 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
1月前
|
机器学习/深度学习 自动驾驶 计算机视觉
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
112 61
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
|
1月前
|
机器学习/深度学习 编解码 TensorFlow
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
85 14
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
1月前
|
机器学习/深度学习 自动驾驶 计算机视觉
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
141 13
|
4月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
133 8
|
4月前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
110 5
|
4月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
325 2
|
4月前
|
运维 负载均衡 安全
|
5月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
5月前
|
网络协议 安全 网络安全
Cisco-网络端口地址转换NAPT配置
Cisco-网络端口地址转换NAPT配置
117 1

热门文章

最新文章