今天给大家介绍的是山东大学(威海)柳军涛课题组和沙特阿卜杜拉国王科技大学(KAUST)高欣教授课题组(http://sfb.kaust.edu.sa)发表在Genome Research的一篇文章,“TransBorrow: Genome-guided transcriptome assembly by borrowing assemblies from different assemblers“。RNA-seq技术(转录组测序技术)由于其高通量、高精度、低成本,目前仍广泛应用在各种转录组学研究中,并为揭示转录组的复杂结构提供了巨大的机会。二代RNA测序技术大大提高了测序的通量,且极大降低了单个碱基的测序成本,但在测序长度上并不能一次性读完全长转录本序列,测序得到的序列只是转录本的一段序列,因此需要通过组装的方法,将测到的序列拼接成完整的转录组。在这项研究中,作者开发了一种新的基于参考基因组的组装工具——TransBorrow(具体流程见图1),并在模拟数据集和100余组不同类型的真实数据集上进行了测试,与现有的经典的转录组组装工具相比,TransBorrow表现出极大的优越性。
图1 TransBorrow算法流程图
1
背景
RNA-seq技术是一个强大的转录组测序技术,对于在整个转录组水平识别转录表达和测量亚型表达水平具有前所未有的准确性。在真核生物中,由于剪接的选择性,大多数真核基因通常产生多种异构体。因此,转录组研究中最重要的任务之一是准确识别所有表达的转录本,以便后续的生物学研究。然而,由于剪接的选择性,同一位点的转录本可以共享外显子,而同一基因的不同亚型可能具有高度可变的表达丰度,这使得转录组组装问题非常具有挑战性。此外,RNA-seq运行产生了数以亿计的short reads,测序错误约为2%。因此,从大量错误未知的短序列中计算识别所有表达的转录本是一个很大的挑战。
当前可用的转录组组装方法通常分为两种策略:基于参考基因组的组装和从头组装。对于转录组组装来说,当跨不同的RNA-seq数据集进行测试时,并没有哪个组装工具能始终如一地生成最准确的组装结果,并且很难确定要针对特定RNA-seq数据集使用哪个组装工具。在这项研究中,作者开发了一种新的基于参考基因组的组装工具——TransBorrow,该组装工具首先建立基于片段回贴的剪接图,并利用双端测序信息从剪接图中提取可靠的双端子路。然后,它通过构建所谓的色彩图从不同的组装工具中借用可靠的子序列。随后,将这些可靠的子序列和双端子路径作为可靠的子路径映射到剪接图中,以指导表达的转录本正确组装。最后,作者采用一种新设计的路径延伸方法,通过在每个剪接图上以上述可靠的子路径为种子来搜索表示转录本的路覆盖,路覆盖中的每一条路径代表一个预测出的表达转录本(图1)。
2
方法
可用数据:本研究所使用的模拟数据集可从https://sourceforge.net/projects/transcriptomeassembly/files/TransBorrow/Data/获得。所有真实数据集均从NCBI Sequence Read Archive (SRA)下载。
建立剪接图并提取可靠的双端子路(图1A):在这项研究中,表达的转录本的组装是通过传统的图模型(剪接图)完成的。因此,需要首先构建准确的剪接图,然后利用双端测序信息从剪接图中提取所有可靠的双端子路。
建立色彩图并提取可靠的拼接序列(图1B):TransBorrow的主要贡献之一是充分利用来自不同组装工具的组装结果,这是通过从不同的组装工具中提取所有可靠的转录本子序列来实现的。这些提取的可靠子序列与上述可靠的双端子路一起作为指导后续组装过程的有效信息。
将可靠的子路径映射到剪接图(图1C):组装过程在剪接图上执行,所有可靠的双端子路和拼接子路径实际上指导了剪接图上的组装过程。因此,需要将所有可靠的拼接子路映射到剪接图中。然后,每个可靠的拼接子路径对应于剪接图上的唯一子路径。将所有可靠的拼接子路映射到剪接图后,作者将拼接子路和双端子路合并,并删除冗余子路,合并的子路径称为可靠子路(请参见图1C)。这些可靠的子路将作为种子,并指导后续的转录本组装。
以可靠的子路径为种子搜索代表表达转录本的路覆盖(图1D):从理论上讲,每个可靠的子路径都对应于表达转录本的一个片段,因此应该被至少一个表达转录本覆盖。为了实现这个目标,作者首先为每个剪接图创建一个加权有向图,然后通过一种新的路径扩展技术寻找代表表达转录本的路覆盖,路覆盖中的每一条路径代表一个预测出的表达转录本。
3
结果
作者分别从以下几个方面对TransBorrow的性能进行了评估,各种评估结果表明了TransBorrow有效地利用了来自不同工具的组装结果,并且TransBorrow与其他组装工具相比,性能得到了极大增强。
3.1在模拟数据上评估TransBorrow的性能
在模拟数据上,作者分别在转录层面和基因层面的组装精度(图2A-2D),以及对于不同表达水平转录本的恢复能力上(图2E-2G)来综合评估TransBorrow的性能。
图2 在模拟数据上组装工具性能的比较
3.2在真实数据上的TransBorrow性能
在真实数据集上,作者通过在转录层面的组装精度比较(图3),基因层面的组装精度的比较(图4),恢复不同表达水平的转录本的比较(图5),以及运行时间和内存使用情况的比较来综合评估TransBorrow的性能。
图3 组装工具在转录层面上对四个真实数据集的准确性比较
图4 组装工具在基因层面上对四个真实数据集的准确性比较
图5 组装工具在真实数据上恢复不同表达水平转录本的性能比较
3.3 额外的评估
除了上述评估之外,作者在补充材料中评估了所有组装工具在另外101个RNA-seq样本上的组装精度,这些样本来自7个物种,具体结果可见补充材料中的图S1-S19.
4
讨论
在这项研究中,作者提出了一种全新的基于参考基因组的组装工具TransBorrow。在模拟数据集和真实数据集上,与三个同类经典组装工具相比,TransBorrow始终保持最佳性能。TransBorrow的优越性可以归因于以下几点。
TransBorrow尝试通过利用来自其他组装工具的不同组装结果来识别所有表达的转录本。
在此步骤中产生的可靠子序列将作为种子,有效地指导后续的组装过程。
TransBorrow开发了一个新的图模型——色彩图,它是通过合并不同的组装结果来构建的。
基于色彩图,TransBorrow可以从合并后的组装结果中准确、高效地提取出可靠的子序列。
TransBorrow为每个剪接图构造一个加权节点图,其边权值准确表示剪接图中每个节点的进出边之间的正确连接。
TransBorrow利用了一种全新设计的路径延伸策略,通过种子化提取出的可靠子路,迭代选择最优邻居进行路径延伸,从而在每个加权节点图上搜索处表示表达转录的路覆盖。
尽管我们已经看到了TransBorrow的巨大优势,但仍存在着一些缺点:
当前版本的TransBorrow不兼容long-read RNA-seq数据集。
当前版本的TransBorrow在每个单独的基因座中执行转录组组装,而不考虑嵌合转录本的拼接。
当前版本的TransBorrow是一个基于参考基因组的组装工具,与从头组装不兼容。
就TransBorrow的效果而言,在一定程度上取决于借用组装工具的性能。EvidentialGene,Concatenation和Mikado之类的工具也可以通过组合来自不同组装工具的组装结果来执行组装,这与TransBorrow相似。但TransBorrow与这三个工具不同的是其通过建立剪接图并在剪接图上搜索路覆盖来执行转录组组装,从而充分利用了最原始的测序片段,而来自不同组装工具组装结果则有效地为TransBorrow提供了可靠的子路径,以指导其精确组装。TransBorrow已被开发成用户友好的软件包供相关学者免费下载试用,有望在使用RNA-seq的转录组研究的新发现中发挥关键作用,特别是在与异常剪接事件和表达水平相关的复杂人类疾病(例如癌症)研究中。