Sentieon | 应用教程: 关于读段组的建议-阿里云开发者社区

Sentieon | 应用教程: 关于读段组的建议

2023-08-22 141

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sentieon | 应用教程: 关于读段组的建议

介绍

本文档描述了使用Sentieon® Genomics软件时，推荐使用RGID字段以最小化潜在问题的用法。
本文档能帮助您确定设置所使用的bam文件中RG标签的不同字段的最佳实践方法。

RG字段及其用法的详细描述

RG字段的详细描述

SAM格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM文件中的读段组字段可以包含以下标签：

ID: 标识符。读段组的唯一标识符。您需要确保RGID在BAM文件内是唯一的，并且在同一个命令的流水线中使用的多个BAM文件内也是唯一的。此字段是必需的。

CN: 中心名称。进行测序的测序中心的名称。通常情况下，此标签不被使用。

DS: 描述。对读段组的自由格式描述。通常情况下，此标签不被使用。

DT: 日期。运行生成的日期，遵循ISO8601日期或日期/时间格式。通常情况下，此标签不被使用。

FO: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下，此标签不被使用。

KS: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下，此标签不被使用。

LB: 文库。用于测序读段的文库。

PG: 程序。用于处理读段组的程序。通常情况下，相关信息会包含在BAM文件的PG字段中，而不是在每个读段组内单独设置。

PI: 预测的中值插入大小。通常情况下，此标签不被使用。

PL: 平台。用于测序读段的技术。如果您计划运行BQSR，则需要此标签，因为它用于确定要应用的正确错误模型。

PM: 平台模型。提供关于所使用平台/技术的更多细节的自由格式文本。通常情况下，此标签不被使用。

PU: 平台单元。执行测序的测序仪使用的唯一标识符。如果您打算运行BQSR，则建议使用此标签，因为BQSR将对属于相同PU的所有读段进行建模；如果PU缺失，则BQSR将对具有相同RGID的读段进行建模。

SM: 样本名称。读段所属样本的名称。此字段是必需的。

RG字段标签和Sentieon®

以下是RG字段标签在Sentieon®工具中使用的一般原则：
使用多个输入的bam文件时，需要使每个bam文件的ID标签唯一；两个不同的bam输入文件中不能有相同ID的RG。
工具使用SM标签来识别属于同一样本的读段，并相应地处理它们。
去重（Deduplication）使用LB标签来确定可能包含重复的组，重复的reads应属于同一文库。
BQSR模型需要PL标签来确定要应用的错误模型。如果没有PL标签，将不会执行BQSR。
如果存在PU标签，则BQSR建模将基于PU标签识别的读段组进行；如果不存在PU标签，则BQSR建模将基于ID标签识别的读段组进行。

RG字段标签的填写

Sentieon®建议对RG字段标签使用以下约定：

ID：样本名.flowcell.lane.barcode

SM：样本名

PL：技术平台，例如ILLUMINA

PU：flowcell.lane

LB：样本名.文库制备

上述建议确保了：
即使在多个bam文件中，读组ID也将是唯一的，即使是相同样本在不同lane或使用不同文库进行测序。

BQSR将根据实际的唯一测序单元创建重新校准，如果多个样本在同一测序单元上进行测序，则可以对其执行。

肿瘤和正常样本的名称在体细胞变异检测中将是唯一的。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

640 (8).png

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至2023年3月份，Sentieon已经在全球范围内为1300+用户提供服务，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过700篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。

软件试用：https://www.insvast.com/sentieon

Sentieon | 应用教程: 关于读段组的建议

介绍

RG字段及其用法的详细描述

RG字段的详细描述

RG字段标签和Sentieon®

RG字段标签的填写

Sentieon软件介绍

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Sentieon | 应用教程: 关于读段组的建议

介绍

RG字段及其用法的详细描述

RG字段的详细描述

RG字段标签和Sentieon®

RG字段标签的填写

Sentieon软件介绍

热门文章

最新文章

相关电子书