靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!

简介: 靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!

背景

RNA-seq,即通过高通量测序技术进行的转录组测序分析技术。最初作为研究mRNA,small RNA,non-coding RNA 等表达水平、表达差异基因的应用,在过去的十几年内迅速发展。而今, RNA-seq 在转录本变异、基因融合、可变剪切检测等场景均有大规模的应用。靶向 RNA-seq 则是对特定的转录本进行重点分析,与标准RNA-seq 类似,靶向富集方法可用于评估基因表达、 RNA 种类分析,以及基因融合和突变检测,但相比标准RNA-seq,具有高灵敏度、宽动态范围、低成本与高通量等优势。

STAR 作为一款经典的比对软件,在科研与临床 RNA 测序数据分析中有着广泛的应用。相较于同样经典的 Tophat2 与 HISAT2,STAR 拥有更高的 unique mapping 比例,且对 more soft-clipped 和错配碱基比对有较高的容忍度,适用于更加复杂的分析需求。因此 STAR 成为 ENCODE 计划的御用比对软件。为了克服 STAR 运行耗时较长的弊端,Sentieon开发了对应的加速模块 Sentieon-STAR,以期缩短软件的运行时间。纳昂达利用开发的多款靶向捕获 panel 的靶向 RNA-seq 数据,对 Sentieon-STAR 相比开源 STAR 在 RNA 变异检测、基因表达定量、可变剪切检测和融合基因检测多个方面的表现进行了评估。

转录本变异检测是指通过比较样本 RNA 序列和参考基因组对应序列,来寻找单碱基多态性和小片段的插入缺失,其结果大多用于致病位点的判断或性状相关的研究。

融合基因是指两个或多个基因首尾相连,置于同一套调控序列控制之下构成的嵌合基因,其表达产物为融合蛋白。融合基因的检测在某些癌症中成为了重要的检测指标。

可变剪接,或称选择性剪接,即主要基因或者 mRNA 前体转录所产生的 RNA 的外显子以多种方式通过 RNA 剪接进行重连,由此产生的不同的 mRNA 可能被翻译成不同的蛋白质异构体,多数情况下这些异构体的结构与功能均有差异。可变剪接可用于研究同基因的不同转录本表达差异对性状的影响。

分析流程

表 1 | 测试内容及方法

图 1 | GATK标准流程 【图片来源:www.sentieon.com/】

表 2 | 本文中所使用的分析软件

分析结果

分析速度对比

我们首先考察了 Sentieon-STAR 相比 STAR 是否能够实现提速。在同样的线程数(NT=40)下,不论是 RNA-seq 数据还是靶向捕获数据,Sentieon-STAR 用时均少于 STAR(图2)。处理数据量相对少的靶向捕获数据时,Sentieon-STAR 可提速 1.0-1.5 倍,而在处理数据量大的 RNA-seq 数据时,加速模块表现更加明显,可提速 1.75-2 倍以上。

图 2 | Sentieon-STAR与STAR用时对比

 

变异位点一致性比较

我们选取同一样本的 RNA-seq 和靶向捕获 RNA-seq 进行性能比较测试,包含组织样本和细胞系样本,运行经典 RNA 突变分析流程(STAR+GATK)和 Sentieon RNA 突变分析流程(Sentieon-STAR)。两个流程产生的变异分析结果显示:组织样本和细胞样本的 RNA-seq 数据的变异检测一致性均在 99.1% 以上,提示 Sentieon-STAR 加速模块对整体变异检测结果影响非常小。而在靶向捕获数据中,由于样本在靶区内变异数量偏小的原因,一致性较 RNA-seq 略低,但也保持在 98.8% 以上。由于细胞系样本的变异复杂程度低于组织样本,即使在变异位点数较少的情况下,依旧可以保持较好的一致性。

图 3 | STAR+GATK 流程与 Sentieon-STAR 流程检测变异位点示例。

a. 组织样本 S1;b. 组织样本 S2;c. 细胞系 S3。

实验流程:NadPrep®️Total RNA-To-DNA Module 搭配 NadPrep®️ DNA 通用型文库构建试剂盒 (for MGI) 建库,捕获 Panel 为 NanOnco Plus Panel v2.0 或内部 panel,MGI 平台采用 MGISEQ-2000,  PE100 测序;下同。

 

基因表达定量比较

NanOnco Plus Panel v2.0 包含实体瘤研究中被广泛关注的 565 个基因的全部编码区。靶向捕获 RNA-seq 数据在获得 Sentieon-STAR 和 STAR 比对文件后使用 HTseq-count 统计 read count 值并计算 RPKM,去除表达量为零的基因后, 我们考察了靶区基因的富集程度和和相对表达丰度的重现性。

无论在何种流程下,靶向捕获 RNA-seq 对目标区域内的基因表达相对 RNA-seq 均有显著的富集效果(图 4a)。来自纳昂达内部 3 个样本的 6 组数据(含重复),其靶区基因富集倍数中位数分布在 16.3-18.6 倍之间,平均富集倍数 14.9-20.1 不等(图 4b)。不论是组织样本还是细胞系样本,线性回归的斜率均接近 1(图 4c),表明靶向捕获 RNA-seq 与 RNA-seq 的整体定量结果具有高度一致性。而 Sentieon-STAR 与 STAR 的整体结果几乎完全一致。

图 4 | 靶向捕获RNA-seq有效富集靶基因。

a. 靶向捕获 RNA-seq 相对 RNA-seq的基因富集情况;b. 靶向捕获RNA-seq在不同类型样本的富集倍数;c. 同一组织样本和细胞系样本的靶向数据使用 Sentieon-STAR 和 STAR 流程对基因富集倍数的相关性。

 

可变转录本定量比较

合成的 RNA 可变转录变体(Spike-In-RNA Variants,SIRVs,Lexogen)可用来模拟转录组复杂性分析。制备文库时,以极少的量加入样品中与内源性 RNA 共同建库,即可进行可变转录本定性或定量的比较分析。针对其来自 7 个人类模型基因的 69 个人工转录变体(0.16-2.5 kb),我们按照其转录本序列设计了探针。选取不同起始摩尔量的三套标准品(E0、E1、E2)混合于 K562 细胞系 RNA 中并使用相应探针进行靶向富集。该方法可考察工作流程对不同转录本注释分析的稳健性。我们分别使用 STAR以及 Sentieon-STAR 比对,随后利用 Cufflinks2 进行定量。

对 E0、E1、E2 三套标准品可变转录本定量分析后, 二者分析结果高度一致,且靶向捕获数据中表达倍数分布均接近理论值。值得注意的是,个别转录本由于相比其他转录本差异极小(仅有一个外显子差异)导致转录本定量的准确度下降。供应商对此产品进行测试时也观察到同样的现象。

图 5 | SIRV定量分布。

a. SIRV 金标准的定量分布图;b. STAR流程下对 SIRV 的定量分布;c. Sentieon-STRA 流程下对 SIRV 的定量分布。

 

融合基因检测

我们使用包含 16 种已知融合事件的 RNA 标准品(Seraseq® FFPE NTRK Fusion RNA Reference Material, Seracare)进行融合基因检测对比。为了更好地模拟肿瘤 RNA 检测,我们将标准品按 50%,12.5%,3.75%,0.94%,0.23% 比例进行稀释,使用 NanOnco Plus Panel v2.0 捕获探针进行基于靶向捕获的 RNA-seq。STAR 和 Sentieon-STAR 流程被用来进行基因组比对,随后使用 STAR-Fusion 对每个样本原始 fastq 文件进行融合检测。此外,我们还测试了经典融合检测软件 Fusioncatcher。

融合软件结果对比显示各家软件在“去伪”和“存真”上各有侧重(图6)。在未做任何过滤的前提下,对于50% 的混比样本,其 Fusioncatcher、STAR 和 Sentieon-STAR 分别识别出的 junction 读数为 456,20 和 15。由于 Fusioncatcher 保留了较多信号,因此在低浓度时能保持较好的召回率(Recall rate),但其阳性预测值(Positive Predictive Value, PPV)则显著偏低。Sentieon-STAR 和 STAR 的召回率则相对较差;Sentieon-STAR 与 STAR 在 PPV 上则较为接近。这样的结果可能是由 STAR 算法改进导致的,进一步加强了 STAR-fusion 的去伪能力。为了评估测序量对低频或低拷贝数融合基因检测的影响,我们进行了多轮模拟抽样(down-sampling),并使用 Fusioncatcher 流程获取融合基因信号。结果显示当标准品混比低至 0.23% 时,即使加大测序量,其检出率至多为 62.5%(图7a)。使用 NanOnco Plus Panel v2.0 进行靶向RNA富集,3.75% 的标准品混比在原始测序 reads 达到 35M 或以上时,则可稳健地检出全部融合基因(图7b)。

图 6 | 多款软件的RNA融合基因检测结果对比。

a. 不同软件对标准品靶向捕获 RNA-seq 的 PPV;b. 不同软件对标准品靶向捕获 RNA-seq 的 Recall rate。

图 7 | 低浓度 FFPE RNA 标准品在不同数据量中融合基因检出率。

 

我们通过对标准品、细胞系及组织样本的靶向 RNA-seq 数据分析,展示了方案在 RNA 变异检测、基因表达定量、基因可变剪切和融合基因检测等方面的具体表现。此外,Sentieon 比对软件(Sentieon-STAR)相比经典 RNA 比对软件(STAR)则可显著加速,为相关分析提供了更多选择。

 

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
5月前
|
计算机视觉
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
38 0
|
12月前
|
数据挖掘
生信教程:使用拓扑加权探索基因组进化(1)
生信教程:使用拓扑加权探索基因组进化(1)
91 1
|
12月前
|
数据可视化 Python
生信教程:使用拓扑加权探索基因组进化(3)
生信教程:使用拓扑加权探索基因组进化(3)
62 0
|
2月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
38 4
|
5月前
|
运维
ICLR 2024:跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP
【5月更文挑战第12天】 浙大、新大和哈佛研究人员合作提出AnomalyCLIP,利用预训练的视觉-语言模型CLIP,学习对象无关文本提示,实现准确的跨领域异常检测。在17个数据集上表现出色,但存在特定领域适应性和计算复杂度问题。研究表明潜力,尤其对工业和医学图像分析。[论文链接](https://arxiv.org/pdf/2310.18961.pdf)
115 1
|
数据可视化 关系型数据库 数据挖掘
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
558 0
|
5月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
125 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
算法 数据挖掘 Windows
靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!
靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!
206 0
靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!
|
机器学习/深度学习 人工智能 自然语言处理
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
在优化和决策过程中,不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。 在任何基于人工智能的系统中,以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性,这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色
2239 0
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
|
数据可视化 搜索推荐 关系型数据库
scRNA挖掘 |只有矩阵如何构建单细胞对象?meta信息如何利用?
scRNA挖掘 |只有矩阵如何构建单细胞对象?meta信息如何利用?
705 0
下一篇
无影云桌面