1.背景
具有特定生物学功能的工程RNA分子在合成生物学中发挥着重要作用,特别是作为小分子、蛋白质和核酸的可编程反应元件;例如作为核糖开关、核糖调节因子和核酶,且在体内和体外都可应用。工程RNA分子功能的多样性给这种新兴的合成生物学预测模型的设计和验证带来挑战。
目前,用于揭示RNA序列、结构和行为之间基本关系的研究主要集中在机械热力学建模和低通量实验上,这些实验往往不能提供足够的预测性和可操作性的信息来帮助设计RNA工具。而相比之下,由一系列计算构成的深度学习是非常适用于复杂且高度组合的生物学问题的特征识别,比如合成RNA工具的序列设计空间。但是,深度学习在RNA合成生物学中预测功能的应用受到数据集不足的限制。
Toehold开关是一类多功能原核生物核糖调节剂,可以通过完全可编程的反式RNA触发序列的存在诱导,代表合成生物学中的基准RNA元件;此RNA合成生物学组件功能多样,既可以在体内作为遗传线路组件,也能作为体外无细胞蛋白质合成(CFPS)系统核的酸诊断工具。类似于其他RNA合成生物学工具,相当一部分toehold开关性能较差,即使已经努力基于低通量数据集来建立合理的、机械的规则以提高性能的测试实验,其实际效用还没有定论。考虑到toehold开关设计的广泛适用性,本文开发了一个深度学习平台,以预测toehold开关作为合成生物学中的经典RNA开关模型的功能。
2.方法
首先使用高通量DNA合成和测序管道来扩展可用的toehold数据集的大小,以表征超过105个toehold开关。然后使用这个全面的数据集来证明直接用开关 RNA序列训练的深度神经网络在预测toehold开关功能方面可以优于热力学和动力学分析。此外,通过利用核苷酸互补矩阵输入表示法来可视化选定模型中重要的学习到的二级结构模式,从而提高深度学习方法的透明度。这种注意力可视化技术,我们称之为VIS4Map(可视化二级结构显著图),此技术可以通过深度学习模型用来准确预测toehold转换功能的二级结构来识别RNA模块的成功和失败模式。所得的数据集、模型和可视化分析(图1)在高通量RNA合成生物学工具设计的验证和可解释性方面向前迈出了实质性的一步,超越了目前机械RNA二级结构建模的限制。
为了最大化有助于二级结构的开关区域中的序列多样性,作者选择了来自于Green等设计的第一代toehold开关架构。病毒基因组于2018年11月6日从https://www.ncbi.nlm.nih.gov/genome/viruses/获得。使用230 bp的寡核苷酸设计了244,000个toehold开关突变体,由公司订购并合成。配置Flow-seq管道;进行深度测序和读取计数分析;控制库的质量:重复管道的ON / OFF相关的测量,比较相关性R2;进行无细胞开关验证;使用ViennaRNA,Kinfold和RBS计算器进行计算。为了比较数据集中测得的最佳和最差突变体之间的序列水平基序,在观察到的功能值尾部进行了k-mer搜索,以寻找过度代表的序列基序。
深度学习模型架构:分别使用了MLP-理性特征;MLP-OneHot seq;MLP-混合理性特征/ OneHot seq;CNN-OneHot seq;CNN-2D互补图和LSTM-OneHot seq;考虑到由于模型缺乏验证集的改而触发的20个epoch的提前终止,所有模型都最多使用300个epochs进行训练。所有模型的批处理大小为64 *(1 + ngpus),其中ngpus定义为模型训练期间使用的图形处理单元的数量。所有训练的回归模型均使用“十倍交叉验证”对报告的指标进行了验证,而分类训练的模型则按在三个改组的测试集上进行了评估。
数据平衡:作者尝试了几种方法来解决不平衡OFF状态数据的局限性,而有趣的是,得到的结果仅对由R 2、AUROC和AUPRC测得的模型的精度产生了很小的改进。这表明,通过使用未转换和不平衡的数据,本文的模型已经可以在涉及的架构下实现几乎最佳的性能。
互补矩阵和VIS4Map:此技术可以用于生成热图编码的在空间上与互补性图中的toehold区域相关的显着性图图像,从而可以进行准确的预测。
3.结果
库合成与验证:文章的toehold开关文库由244,000个触发序列设计和合成,该触发序列涵盖了23种致病病毒的完整基因组、906个人类转录因子的整个编码区和10,000个随机序列。选择RNA工具后,进行文库合成和表征,并使用深度神经网络(DNN)进行分析,以提供功能预测和生物学见解(图1)。作者从一个合成的寡核苷酸库中生成了两个用于ON和OFF状态的构建文库。对于Flow-seq toehold开关库的特性和触发本体如图2所示。
使用RNA二级结构模型的理性分析:对生物学序列数据的K-mer搜索通常用于发现基序,在我们的数据集中发现了某些过表示的基序(图 3a),但利用这些并不能显着改善开关行为的功能预测。对于30个最新的热力学功能,获得了Pearson相关性和核糖体结合位点(RBS)计算器的输出(图 3b),发现当使用较大的数据集分析这些理性特征时,它们不能很好地预测toehold开关功能,虽然可测量,但其相关性对于在特定RNA合成生物学工具的计算机辅助设计中的实际应用而言太弱。
使用多层感知器(MLP)模型改进的预测:以MLP模型为基本体系结构(图3c)。首先在数据集上训练了一个三层MLP模型,其输入包含先前计算的30个热力学有理特征。当在回归模式下训练时,该模型能够得到在R2和平均绝对误差(MAE)上比单个理性功能或RBS计算器更好的预测(R2:ON=0.35,OFF=0.25,ON/OFF=0.20)(图3d、e)。当该模型在分类模式下训练时, 它在接收者-操作者曲线(AUROC)下达到了0.76,在精度-召回曲线(AUPCRc)下达到0.18。MLP模型的表现略好于训练在相同理性特征上的逻辑回归(图d-f),这表明与更简单的非层级模型相比,MLP架构能够从这些特征中提取出更高级的模式。
与有理特征相比,在纯序列输入上训练时性能的提高表明,当对toehold开关序列进行热力学计算时,会出现显著的信息丢失。结果表明,虽然有理特征的使用可能有助于提取toehold开关功能的潜在相关信息,但如果给出足够的训练数据,只有one-hot仅序列的MLP模型可以在没有先验假设的情况下恢复这些信息。
另外用两轮验证来评估该纯序列MLP模型的生物学泛化程度,当分别在有理功能、one-hot序列和串联输入上进行训练时,该MLP模型获得了0.70、0.81和0.79的AUROC(图3g)。当直接根据核苷酸序列而不是热力学特征来训练模型时,即使是对于外部数据集,性能也有所改善,这表现了使用深度学习和高通量数据集对RNA合成生物学工具进行建模的价值,消除了目前对机械理性参数的假设。
高容量模型的预测性能:在一个热序列输入上训练了CNN,在一个热序列输入上训练了LSTM,并在二维one-hot互补图表示输入上训练了CNN。在对这些模型进行回归模式下的R 2和MAE以及分类模式下的AUROC和AUPRC的评估之后(图 4a–d),我们得出的结论是,与序列相比,这些神经网络体系结构并不能产生更好的预测模型前文所述的基于三层的MLP。在这些情况下,增加的模型容量会导致拟合不足或过度拟合,因此需要更多的训练示例或改进的微调以加速有效的训练。
在one-hot序列输入上训练CNN和LSTM,在二维和one-hot互补地图表示输入上训练CNN。在评估了回归模式下的R2和MAE以及分类模式下的AUROC和AUPRC(图4a-d)后,得出结论:与前面描述的基于序列的三层MLP相比,这些神经网络结构并没有带来更好的预测。在这些情况下,增加模型容量会导致过低或过高的拟合,需要额外的训练实例或改进的微调来加速有效的训练。
可视化学习到的RNA二级结构基序:为了实现这种可视化,作者在二维核苷酸互补图表示上训练了CNN(图 5a),以便在在这个二级结构空间中进行注意模式可视化。由CNN在互补图输入上训练产生的显著图主要包含对角线特征,这些特征显示出与NUPACK基于其MFE计算的预测MFE结构在统计上显著一致的程度(图5b,c)。因此,在没有事先了解NUPACK用于计算MFE的算法或参数的情况下,该CNN能够学习与NUPACK类似的抽象概念,使用这些抽象概念利用互补图输入表示法直观地可视化潜在的相关RNA二级结构。作者将这种解释RNA深度学习模型的方法命名为可视化二级结构显著图(VIS4Map)
当在回归模式和分类模式下对互补图表示进行训练时,VIS4Map的表现明显优于对理性热力学特征进行训练的MLP,且该CNN模型产生的显著图显示了清晰的对角二级结构特征(图5d)。通过平均显著图并发现共享结构与开关发夹的设计目标结构相对应,证实了这些特征的生物学相关性(图5e)。进一步分析平衡结构之外的学习特征,使用toehold开关OFF信号对显著图进行排序(图5f);发现被二级结构抑制的RBS的遗漏表达可能是由于抑制结构错误折叠成不太稳定的动力学中间构象(图5f右)。
4.讨论
本文提出了一种高通量的DNA合成、测序和深度学习管道,用于可编程RNA开关的设计和分析。证明了使用深度学习方法直接分析序列而不是依赖于机械热力学和动力学模型的计算的好处;也证明出本文模型的强大生物学泛化能力。作者希望这项工作能够鼓励使用高通量数据收集来训练深度学习系统,并与不受热力学或动力学二级结构模型限制的更具解释性的神经网络架构配合使用,以改善RNA合成生物学的预测和见解。