Nat. Commun. | 深度学习探索可编程RNA开关

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | 深度学习探索可编程RNA开关

image.png

1.背景

具有特定生物学功能的工程RNA分子在合成生物学中发挥着重要作用,特别是作为小分子、蛋白质和核酸的可编程反应元件;例如作为核糖开关、核糖调节因子和核酶,且在体内和体外都可应用。工程RNA分子功能的多样性给这种新兴的合成生物学预测模型的设计和验证带来挑战。



目前,用于揭示RNA序列、结构和行为之间基本关系的研究主要集中在机械热力学建模和低通量实验上,这些实验往往不能提供足够的预测性和可操作性的信息来帮助设计RNA工具。而相比之下,由一系列计算构成的深度学习是非常适用于复杂且高度组合的生物学问题的特征识别,比如合成RNA工具的序列设计空间。但是,深度学习在RNA合成生物学中预测功能的应用受到数据集不足的限制。



Toehold开关是一类多功能原核生物核糖调节剂,可以通过完全可编程的反式RNA触发序列的存在诱导,代表合成生物学中的基准RNA元件;此RNA合成生物学组件功能多样,既可以在体内作为遗传线路组件,也能作为体外无细胞蛋白质合成(CFPS)系统核的酸诊断工具。类似于其他RNA合成生物学工具,相当一部分toehold开关性能较差,即使已经努力基于低通量数据集来建立合理的、机械的规则以提高性能的测试实验,其实际效用还没有定论。考虑到toehold开关设计的广泛适用性,本文开发了一个深度学习平台,以预测toehold开关作为合成生物学中的经典RNA开关模型的功能。



2.方法

首先使用高通量DNA合成和测序管道来扩展可用的toehold数据集的大小,以表征超过105个toehold开关。然后使用这个全面的数据集来证明直接用开关 RNA序列训练的深度神经网络在预测toehold开关功能方面可以优于热力学和动力学分析。此外,通过利用核苷酸互补矩阵输入表示法来可视化选定模型中重要的学习到的二级结构模式,从而提高深度学习方法的透明度。这种注意力可视化技术,我们称之为VIS4Map(可视化二级结构显著图),此技术可以通过深度学习模型用来准确预测toehold转换功能的二级结构来识别RNA模块的成功和失败模式。所得的数据集、模型和可视化分析(图1)在高通量RNA合成生物学工具设计的验证和可解释性方面向前迈出了实质性的一步,超越了目前机械RNA二级结构建模的限制。

image.png

为了最大化有助于二级结构的开关区域中的序列多样性,作者选择了来自于Green等设计的第一代toehold开关架构。病毒基因组于2018年11月6日从https://www.ncbi.nlm.nih.gov/genome/viruses/获得。使用230 bp的寡核苷酸设计了244,000个toehold开关突变体,由公司订购并合成。配置Flow-seq管道;进行深度测序和读取计数分析;控制库的质量:重复管道的ON / OFF相关的测量,比较相关性R2;进行无细胞开关验证;使用ViennaRNA,Kinfold和RBS计算器进行计算。为了比较数据集中测得的最佳和最差突变体之间的序列水平基序,在观察到的功能值尾部进行了k-mer搜索,以寻找过度代表的序列基序。



深度学习模型架构:分别使用了MLP-理性特征;MLP-OneHot seq;MLP-混合理性特征/ OneHot seq;CNN-OneHot seq;CNN-2D互补图和LSTM-OneHot seq;考虑到由于模型缺乏验证集的改而触发的20个epoch的提前终止,所有模型都最多使用300个epochs进行训练。所有模型的批处理大小为64 *(1 + ngpus),其中ngpus定义为模型训练期间使用的图形处理单元的数量。所有训练的回归模型均使用“十倍交叉验证”对报告的指标进行了验证,而分类训练的模型则按在三个改组的测试集上进行了评估。



数据平衡:作者尝试了几种方法来解决不平衡OFF状态数据的局限性,而有趣的是,得到的结果仅对由R 2、AUROC和AUPRC测得的模型的精度产生了很小的改进。这表明,通过使用未转换和不平衡的数据,本文的模型已经可以在涉及的架构下实现几乎最佳的性能。



互补矩阵和VIS4Map:此技术可以用于生成热图编码的在空间上与互补性图中的toehold区域相关的显着性图图像,从而可以进行准确的预测。



3.结果

库合成与验证:文章的toehold开关文库由244,000个触发序列设计和合成,该触发序列涵盖了23种致病病毒的完整基因组、906个人类转录因子的整个编码区和10,000个随机序列。选择RNA工具后,进行文库合成和表征,并使用深度神经网络(DNN)进行分析,以提供功能预测和生物学见解(图1)。作者从一个合成的寡核苷酸库中生成了两个用于ON和OFF状态的构建文库。对于Flow-seq toehold开关库的特性和触发本体如图2所示。



使用RNA二级结构模型的理性分析:对生物学序列数据的K-mer搜索通常用于发现基序,在我们的数据集中发现了某些过表示的基序(图 3a),但利用这些并不能显着改善开关行为的功能预测。对于30个最新的热力学功能,获得了Pearson相关性和核糖体结合位点(RBS)计算器的输出(图 3b),发现当使用较大的数据集分析这些理性特征时,它们不能很好地预测toehold开关功能,虽然可测量,但其相关性对于在特定RNA合成生物学工具的计算机辅助设计中的实际应用而言太弱。


image.png

使用多层感知器(MLP)模型改进的预测:以MLP模型为基本体系结构(图3c)。首先在数据集上训练了一个三层MLP模型,其输入包含先前计算的30个热力学有理特征。当在回归模式下训练时,该模型能够得到在R2和平均绝对误差(MAE)上比单个理性功能或RBS计算器更好的预测(R2:ON=0.35,OFF=0.25,ON/OFF=0.20)(图3d、e)。当该模型在分类模式下训练时, 它在接收者-操作者曲线(AUROC)下达到了0.76,在精度-召回曲线(AUPCRc)下达到0.18。MLP模型的表现略好于训练在相同理性特征上的逻辑回归(图d-f),这表明与更简单的非层级模型相比,MLP架构能够从这些特征中提取出更高级的模式。



与有理特征相比,在纯序列输入上训练时性能的提高表明,当对toehold开关序列进行热力学计算时,会出现显著的信息丢失。结果表明,虽然有理特征的使用可能有助于提取toehold开关功能的潜在相关信息,但如果给出足够的训练数据,只有one-hot仅序列的MLP模型可以在没有先验假设的情况下恢复这些信息。



另外用两轮验证来评估该纯序列MLP模型的生物学泛化程度,当分别在有理功能、one-hot序列和串联输入上进行训练时,该MLP模型获得了0.70、0.81和0.79的AUROC(图3g)。当直接根据核苷酸序列而不是热力学特征来训练模型时,即使是对于外部数据集,性能也有所改善,这表现了使用深度学习和高通量数据集对RNA合成生物学工具进行建模的价值,消除了目前对机械理性参数的假设。

image.png

高容量模型的预测性能:在一个热序列输入上训练了CNN,在一个热序列输入上训练了LSTM,并在二维one-hot互补图表示输入上训练了CNN。在对这些模型进行回归模式下的R 2和MAE以及分类模式下的AUROC和AUPRC的评估之后(图 4a–d),我们得出的结论是,与序列相比,这些神经网络体系结构并不能产生更好的预测模型前文所述的基于三层的MLP。在这些情况下,增加的模型容量会导致拟合不足或过度拟合,因此需要更多的训练示例或改进的微调以加速有效的训练。



在one-hot序列输入上训练CNN和LSTM,在二维和one-hot互补地图表示输入上训练CNN。在评估了回归模式下的R2和MAE以及分类模式下的AUROC和AUPRC(图4a-d)后,得出结论:与前面描述的基于序列的三层MLP相比,这些神经网络结构并没有带来更好的预测。在这些情况下,增加模型容量会导致过低或过高的拟合,需要额外的训练实例或改进的微调来加速有效的训练。

image.png

image.png

可视化学习到的RNA二级结构基序:为了实现这种可视化,作者在二维核苷酸互补图表示上训练了CNN(图 5a),以便在在这个二级结构空间中进行注意模式可视化。由CNN在互补图输入上训练产生的显著图主要包含对角线特征,这些特征显示出与NUPACK基于其MFE计算的预测MFE结构在统计上显著一致的程度(图5b,c)。因此,在没有事先了解NUPACK用于计算MFE的算法或参数的情况下,该CNN能够学习与NUPACK类似的抽象概念,使用这些抽象概念利用互补图输入表示法直观地可视化潜在的相关RNA二级结构。作者将这种解释RNA深度学习模型的方法命名为可视化二级结构显著图(VIS4Map)


当在回归模式和分类模式下对互补图表示进行训练时,VIS4Map的表现明显优于对理性热力学特征进行训练的MLP,且该CNN模型产生的显著图显示了清晰的对角二级结构特征(图5d)。通过平均显著图并发现共享结构与开关发夹的设计目标结构相对应,证实了这些特征的生物学相关性(图5e)。进一步分析平衡结构之外的学习特征,使用toehold开关OFF信号对显著图进行排序(图5f);发现被二级结构抑制的RBS的遗漏表达可能是由于抑制结构错误折叠成不太稳定的动力学中间构象(图5f右)。


4.讨论

本文提出了一种高通量的DNA合成、测序和深度学习管道,用于可编程RNA开关的设计和分析。证明了使用深度学习方法直接分析序列而不是依赖于机械热力学和动力学模型的计算的好处;也证明出本文模型的强大生物学泛化能力。作者希望这项工作能够鼓励使用高通量数据收集来训练深度学习系统,并与不受热力学或动力学二级结构模型限制的更具解释性的神经网络架构配合使用,以改善RNA合成生物学的预测和见解。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
30天前
|
机器学习/深度学习 SQL 自然语言处理
深度学习之编程错误自动修复
基于深度学习的编程错误自动修复(Automated Code Repair Using Deep Learning)是一种利用深度学习技术自动检测、定位并修复代码中的错误的技术。它旨在减少开发者手动调试和修复代码的时间,并提高代码的质量和可靠性。
38 3
|
2月前
|
机器学习/深度学习 数据挖掘 PyTorch
🎓PyTorch深度学习入门课:编程小白也能玩转的高级数据分析术
踏入深度学习领域,即使是编程新手也能借助PyTorch这一强大工具,轻松解锁高级数据分析。PyTorch以简洁的API、动态计算图及灵活性著称,成为众多学者与工程师的首选。本文将带你从零开始,通过环境搭建、构建基础神经网络到进阶数据分析应用,逐步掌握PyTorch的核心技能。从安装配置到编写简单张量运算,再到实现神经网络模型,最后应用于图像分类等复杂任务,每个环节都配有示例代码,助你快速上手。实践出真知,不断尝试和调试将使你更深入地理解这些概念,开启深度学习之旅。
32 1
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的编程实践:从Python到深度学习的探索之旅
【9月更文挑战第6天】 在人工智能的黄金时代,编程不仅仅是一种技术操作,它成为了连接人类思维与机器智能的桥梁。本文将通过一次从Python基础入门到构建深度学习模型的实践之旅,揭示编程在AI领域的魅力和重要性。我们将探索如何通过代码示例简化复杂概念,以及如何利用编程技能解决实际问题。这不仅是一次技术的学习过程,更是对人工智能未来趋势的思考和预见。
|
3月前
|
机器学习/深度学习 Java TensorFlow
深度学习中的图像识别:从理论到实践Java中的多线程编程入门指南
【8月更文挑战第29天】本文将深入探讨深度学习在图像识别领域的应用,从基础理论到实际应用案例,带领读者一步步理解如何利用深度学习技术进行图像识别。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库实现一个基本的图像识别模型。无论你是初学者还是有一定经验的开发者,都能从中获得启发和学习。 【8月更文挑战第29天】在Java世界里,线程是程序执行的最小单元,而多线程则是提高程序效率和响应性的关键武器。本文将深入浅出地引导你理解Java多线程的核心概念、创建方法以及同步机制,帮助你解锁并发编程的大门。
跟着Nat Commun学作图 | 4.配对箱线图+差异分析
跟着Nat Commun学作图 | 4.配对箱线图+差异分析
527 0
跟着Nat Commun学作图 | 4.配对箱线图+差异分析
|
机器学习/深度学习 算法
通过深度学习将 L1000 图谱转换为类似 RNA 的图谱
通过深度学习将 L1000 图谱转换为类似 RNA 的图谱
106 0
|
机器学习/深度学习 存储 关系型数据库
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
434 0
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
|
机器学习/深度学习 存储 移动开发
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
382 0
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
跟着Nat Commun学作图 | Post-hoc图(Extended error bar plot)
跟着Nat Commun学作图 | Post-hoc图(Extended error bar plot)
467 0
跟着Nat Commun学作图 | Post-hoc图(Extended error bar plot)
|
数据处理
跟着Nat Commun学作图 | 3.物种丰度堆积柱状图
跟着Nat Commun学作图 | 3.物种丰度堆积柱状图
624 0
跟着Nat Commun学作图 | 3.物种丰度堆积柱状图