Sentieon发布RNAseq加速分析方案

简介: Sentieon发布RNAseq加速分析方案

RNAseq,即通过高通量测序技术进行转录组测序分析技术,作为研究RNA的表达水平以及表达差异基因的应用,在过去的十几年内迅速发展。而今,RNAseq在转录本变异检测,基因融合检测,可变剪切检测等场景均有大规模的应用。转录本变异检测,是指通过比较样本RNA序列和参考基因组对应序列,来寻找单碱基多态性和小片段的插入缺失,其结果大多用于治病位点的判断或性状相关的研究。融合基因是指两个或多个基因首尾相连,置于同一套调控序列控制之下,构成的嵌合基因,其表达产物为融合蛋白。在某些癌症中,融合基因的检测成为了重要的检测指标。


在数据分析方面,经过多年的探索与沉淀,业界针对不同的RNAseq应用逐渐产生了相应的主流分析方案。其中STAR作为一款经典的比对软件,在科研与临床的RNA测序数据分析中有着广泛的应用。相较于同样经典的Tophat2与HISAT2,STAR拥有更高的uniq mapping比例,且对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度,适用于更加复杂的分析需求,因此STAR成为Broad Institute RNA分析流程的最佳实践金标准。除此以外,还有包含了变异检测,定量分析,融合检测等其他分析模块共同被使用。


开源软件的一大问题就是速度较慢,耗时长。为克服这个问题,Sentieon开发了对应的加速模块,包括了比对步骤的Sentieon STAR、去重模块、处理RNA junction的模块和变异检测模块,以期缩短分析流程的耗时。



RNA变异检测


RNA变异(SNP和Indel)检测的重要性正在逐步被大家所认可。相比于DNA变异,RNA的变异对于异常蛋白的生成有着更加直接的意义,因此在临床上的应用也开始被大家所接受。相对的,加速分析的重要性也在凸显,因为这直接关系到受试者能否及时得到准确的检测结果。


与DNA变异检测类似,RNA的变异检测流程同样遵循业界的金标准GATK流程,包括了STAR比对,去重,RNA split的处理,Indel重比对(可选),BQSR,以及最终的变异检测等多个步骤。在本次的流程搭建中,我们利用Sentieon最新开发的STAR加速模块,与其他可用加速模块一起,完成了全流程的RNA变异检测流程的搭建工作。



我们选取了2个RNAseq样本进行性能测试,运行包括原版STAR(2.7.8a版本)与GATK(4.2.0版本)在内的最佳实践流程,赋予同样的线程数再次运行搭建好的Sentieon流程,随后进行速度和一致性的比对。速度方面Sentieon各个模块的提速均比较明显,两个样本全流程的提速分别在6.6倍和23.9倍。两个流程的一致性在98.6-98.8%左右主要区别来自于GATK版本号的不匹配。



RNA定量+基因融合


基因定量方面,我们使用SIRV样本作为测试样本。SIRV基因是Lexogen公司人工合成的7个基因,每个基因有多条转录本,共69个转录本,可用以检测可变剪切事件,并作定量内参使用。在这些转录本数据中我们选取了不同起始摩尔量的20个样本,分别使用原版STAR以及Sentieon STAR比对之后,使用Cufflinks2进行定量。我们共定量了155344个转录本,Sentieon与STAR流程的定量结果完全一致。由于这些样本的数据量较小(每个RNAseq样本8.9G左右,捕获样本数据1.3G左右),STAR在定量流程中所占比重也不太大,因此提速效果不是特别明显。


另外我们做了基因融合流程的搭建与检测,使用的参考标准品 (Seraseq FFPE NTRK fusion) 中包含了16个确定的基因融合事件,按照不同的比例与阴性样本混合之后生成5个样本(目标丰度0.23%-50%)作为评测样本。流程方面,我们测试了Sentieon STAR替换原版STAR进行测试,同时与Fusioncatcher进行比对。从结果来看,由于测试的STAR-Fusion中的STAR版本 (2.7.2b)与Sentieon STAR的匹配版本(2.7.8a)不同,两个流程的检出率与特异性也略有差异,总的来说Sentieon流程在PPV上有较好的表现,但在Sensitivity上略低。



方案总结


      在本次方案合作中,Sentieon提供模块组件,福君团队搭建并测试了RNA变异检测流程,纳昂达团队负责了RNA定量与基因融合的相关部分。经过真实数据的评测,我们通过数据展示了Sentieon流程在RNAseq的三项不同应用之中的性能提升,希望能够为业界选择合适的RNAseq分析流程提供参考。


 


软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
前端开发 JavaScript C++
QML信号与信号槽实践指南:轻松掌握现代软件开发的关键技术(一)
QML信号与信号槽实践指南:轻松掌握现代软件开发的关键技术
643 0
|
运维 数据挖掘 测试技术
开箱测评|如何将WGS分析成本降低30%,效能提升40% 【内含Sentieon免费攻略】
以全基因组测序(WGS)场景为例,Sentieon Genomics 工具和 Memory Machine TM Cloud的组合方案,可以使运行时间减少 40%、同时实现成本减少 34%。
469 0
开箱测评|如何将WGS分析成本降低30%,效能提升40% 【内含Sentieon免费攻略】
|
8月前
|
搜索推荐 数据处理 调度
用户标签与画像,精准运营更进一步-ClkLog埋点分析系统
ClkLog CDP企业版实现了通过对埋点采集回来的用户打标签的方式分析客户的行为、兴趣、购买历史、偏好等多维度数据,构建出一个关于客户的完整数字化档案。在实现自定义事件分析的基础上,通过用户标签和分群,可以更快速更精准地找到目标人群,用数据驱动业务增长,这对于有精准运营的用户来说是必不可少的。
371 57
|
关系型数据库 MySQL 分布式数据库
PolarDB操作报错合集之在执行语句时遇到语法错误,是由什么导致的
在使用阿里云的PolarDB(包括PolarDB-X)时,用户可能会遇到各种操作报错。下面汇总了一些常见的报错情况及其可能的原因和解决办法:1.安装PolarDB-X报错、2.PolarDB安装后无法连接、3.PolarDB-X 使用rpm安装启动卡顿、4.PolarDB执行UPDATE/INSERT报错、5.DDL操作提示“Lock conflict”、6.数据集成时联通PolarDB报错、7.编译DN报错(RockyLinux)、8.CheckStorage报错(源数据库实例被删除)、9.嵌套事务错误(TDDL-4604)。
262 1
|
12月前
|
Ubuntu Linux Shell
Sentieon软件快速入门指南
Sentieon为纯CPU计算加速软件,完全适配主流CPU计算架构:Intel、AMD、海光等X86架构CPU,华为鲲鹏、阿里倚天等ARM架构CPU。可灵活部署在实验室单机工作站、HPC集群、超算中心和云计算中心,保持同一套流程下不同规模数据计算结果的一致性。Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
457 4
Sentieon软件快速入门指南
|
12月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】AI轻量化与并行策略
本文探讨了AI计算模式对芯片设计的重要性,重点介绍了轻量化网络模型和大模型分布式并行两大主题。轻量化模型旨在减少参数量和计算量,适合资源受限的设备;大模型分布式并行则针对高性能计算需求,通过数据并行、模型并行等技术提高训练效率。文中详细解析了轻量化设计的方法及分布式并行的实现机制,为AI芯片设计提供了理论依据和技术指导。
372 2
|
存储 算法 Unix
操作系统(13)-----文件管理3
操作系统(13)-----文件管理
919 0
操作系统(13)-----文件管理3
|
12月前
|
负载均衡 监控 应用服务中间件
slb配置同步问题
【11月更文挑战第1天】
180 3
|
并行计算 固态存储 Ubuntu
基因组大数据计算: CPU和GPU加速方案深度评测
基因组大数据计算: CPU和GPU加速方案深度评测
535 0
基因组大数据计算: CPU和GPU加速方案深度评测
|
JavaScript Java 网络安全
从零玩转之JPOM自动化部署本地构建 + SSH 发布 java 项目
从零玩转之JPOM自动化部署本地构建 + SSH 发布 java 项目
733 0
下一篇
开通oss服务