Sentieon | 应用教程: 关于读段组的建议

简介: Sentieon | 应用教程: 关于读段组的建议

介绍

本文档描述了使用Sentieon® Genomics软件时,推荐使用RGID字段以最小化潜在问题的用法。
本文档能帮助您确定设置所使用的bam文件中RG标签的不同字段的最佳实践方法。

RG字段及其用法的详细描述

RG字段的详细描述

SAM格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM文件中的读段组字段可以包含以下标签:

ID: 标识符。读段组的唯一标识符。您需要确保RGID在BAM文件内是唯一的,并且在同一个命令的流水线中使用的多个BAM文件内也是唯一的。此字段是必需的。

CN: 中心名称。进行测序的测序中心的名称。通常情况下,此标签不被使用。

DS: 描述。对读段组的自由格式描述。通常情况下,此标签不被使用。

DT: 日期。运行生成的日期,遵循ISO8601日期或日期/时间格式。通常情况下,此标签不被使用。

FO: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下,此标签不被使用。

KS: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下,此标签不被使用。

LB: 文库。用于测序读段的文库。

PG: 程序。用于处理读段组的程序。通常情况下,相关信息会包含在BAM文件的PG字段中,而不是在每个读段组内单独设置。

PI: 预测的中值插入大小。通常情况下,此标签不被使用。

PL: 平台。用于测序读段的技术。如果您计划运行BQSR,则需要此标签,因为它用于确定要应用的正确错误模型。

PM: 平台模型。提供关于所使用平台/技术的更多细节的自由格式文本。通常情况下,此标签不被使用。

PU: 平台单元。执行测序的测序仪使用的唯一标识符。如果您打算运行BQSR,则建议使用此标签,因为BQSR将对属于相同PU的所有读段进行建模;如果PU缺失,则BQSR将对具有相同RGID的读段进行建模。

SM: 样本名称。读段所属样本的名称。此字段是必需的。

RG字段标签和Sentieon®

以下是RG字段标签在Sentieon®工具中使用的一般原则:
使用多个输入的bam文件时,需要使每个bam文件的ID标签唯一;两个不同的bam输入文件中不能有相同ID的RG。
工具使用SM标签来识别属于同一样本的读段,并相应地处理它们。
去重(Deduplication)使用LB标签来确定可能包含重复的组,重复的reads应属于同一文库。
BQSR模型需要PL标签来确定要应用的错误模型。如果没有PL标签,将不会执行BQSR。
如果存在PU标签,则BQSR建模将基于PU标签识别的读段组进行;如果不存在PU标签,则BQSR建模将基于ID标签识别的读段组进行。

RG字段标签的填写

Sentieon®建议对RG字段标签使用以下约定:

ID:样本名.flowcell.lane.barcode

SM:样本名

PL:技术平台,例如ILLUMINA

PU:flowcell.lane

LB:样本名.文库制备

上述建议确保了:
即使在多个bam文件中,读组ID也将是唯一的,即使是相同样本在不同lane或使用不同文库进行测序。

BQSR将根据实际的唯一测序单元创建重新校准,如果多个样本在同一测序单元上进行测序,则可以对其执行。

肿瘤和正常样本的名称在体细胞变异检测中将是唯一的。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640 (8).png

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
JavaScript 前端开发 API
Python和Vue:构建动态网站的最佳伙伴
【4月更文挑战第10天】在数字时代,Python和Vue.js成为构建互动性网站的理想组合。Python以其强大的后端处理和丰富的库(如Django和Flask)支持高效开发,而Vue.js则凭借其轻量级、数据驱动的前端框架提供直观界面。两者结合,实现前后端分离,双向数据绑定,高效API交互,以及高度灵活性和可扩展性。庞大的社区和生态系统为开发过程提供资源支持,优化用户体验。这种技术栈适合从简单的博客平台到复杂应用的各类项目,为企业带来竞争优势。
361 1
|
JSON 网络协议 Dubbo
RPC框架(技术总结)
RPC框架(技术总结)
RPC框架(技术总结)
|
存储 算法 数据可视化
PCL 随机采样一致性--识别球面和平面
PCL 随机采样一致性--识别球面和平面
PCL 随机采样一致性--识别球面和平面
|
缓存 Java 数据库
深入理解 Java IO 流:原理与应用
【4月更文挑战第4天】Java IO 浴是处理文件和数据输入输出的关键,涉及数据传输和处理。核心概念包括输入流(从源头读取)和输出流(写入目标),由InputStream和OutputStream接口定义基础操作。具体实现如FileInputStream和FileOutputStream用于文件操作,BufferedInputStream和BufferedOutputStream提升性能。IO流广泛应用于文件操作、网络通信、数据库交互和系统交互。其优点在于灵活性、可扩展性和高效性。使用时注意关闭流、处理异常及选择合适流实现。理解IO流原理和应用能提升编程效率和程序性能。
297 1
|
机器学习/深度学习 自然语言处理 UED
上海科大等开源创新模型:文本生成精美3D服装
【9月更文挑战第4天】上海科技大学等机构近期开源了DressCode模型,可根据文本描述生成精美的3D服装,相关成果已发表于论文《DressCode: Autoregressively Sewing and Generating Garments from Text Guidance》。DressCode采用SewingGPT架构,结合GPT与交叉注意力机制,生成与文本匹配的缝纫模式,并利用预训练的稳定扩散模型生成逼真的PBR纹理。这不仅简化了服装设计流程,还提升了虚拟试穿和数字人创建的可能性。研究显示,DressCode在服装质量和一致性方面超越现有技术,具有广泛应用潜力。
249 2
|
消息中间件 架构师 算法
java架构师面试题及答案
java架构师面试题及答案
|
存储 弹性计算 人工智能
【云故事探索】NO.2:引领汽车行业智能进化,看朴数智能如何重塑数字营销版图
朴数智能,一家专注AI自动化的科技公司,借助阿里云的云服务,尤其是云手机和桌面云技术,成功实现业务的快速增长和数字化转型。在阿里云的稳定性和高效支持下,朴数智能应对业务弹性需求,提升了运营效率。双方在“客户第一”的理念上达成共识,形成紧密合作,共同面对数字化时代的挑战,共创未来。阿里云不仅是技术提供者,更是朴数智能成长的伙伴,一同解锁了数字化转型新篇章。
【云故事探索】NO.2:引领汽车行业智能进化,看朴数智能如何重塑数字营销版图
|
SQL 运维 监控
如何做数据库自动化运维
【5月更文挑战第5天】IT运维中的DBA面临诸多挑战,包括库表设计规范落地困难、SQL审核繁琐、数据提取需求频繁、资源管理和监控复杂。为解决这些问题,引入数据库自动化运维平台至关重要。该平台实现SQL审核自动化,确保语句规范和安全,支持数据提取的自助服务,强化元数据管理,提供一键资源部署,并进行全面的数据库监控。这样,DBA的角色转变为平台管理者,提高效率,规范化流程,减轻工作负担。
|
存储 SQL 运维
基于阿里云Elasticsearch打造强大的可观测性平台
本文分享观测未来基于阿里云Elasticsearch服务,打造成本可控且高性能分析的数据存储方案,实现企业级别的可观测平台。
基于阿里云Elasticsearch打造强大的可观测性平台
|
数据处理 区块链
数字藏品平台需要办理哪些资质许可证?
数字藏品平台需要办理哪些资质许可证?
620 1
数字藏品平台需要办理哪些资质许可证?