Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现-阿里云开发者社区

Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

2023-08-25 131

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

使用TNscope®中机器学习模型

TNscope®中机器学习模型的目标

TNscope®允许您使用机器学习模型进行变异过滤，以提高结果的准确性。机器学习模型的方法描述在https://www.biorxiv.org/content/early/2018/01/19/250647中，并在TNscope®中使用一系列灵敏设置来检测更多的候选变异，然后通过基于模型的变异过滤。

Sentieon®为您提供基于GIAB多个样本真集训练的机器学习模型https://github.com/genome-in-a-bottle 。

在TNscope®中使用机器学习模型

需要运行三个单独的命令来进行高灵敏设置调用变异，应用机器学习模型，并使用BCFtools设置模型阈值。输入的BAM文件应该进行过比对、去重复和BQSR处理。

sentieon driver -t NUMBER_THREADS -r REFERENCE \
  -i TUMOR_DEDUPED_BAM -q TUMOR_RECAL_DATA.TABLE \
  -i NORMAL_DEDUPED_BAM -q NORMAL_RECAL_DATA.TABLE \
  --algo TNscope --tumor_sample TUMOR --normal_sample NORMAL \
  --clip_by_minbq 1 --max_error_per_read 3 --disable_detector sv \
  --min_init_tumor_lod 2.0 --min_base_qual 10 --min_base_qual_asm 10 \
  --min_tumor_allele_frac 0.00005 TMP_VARIANT_VCF
sentieon driver -t NUMBER_THREADS -r REFERENCE --algo TNModelApply \
  --model ML_MODEL -v TMP_VARIANT_VCF VARIANT_VCF
bcftools filter -s "ML_FAIL" -i "INFO/ML_PROB > $ML_THRESHOLD" VARIANT_VCF \
  -O z -m x -o FILTER_VARIANT_VCF

以下是命令所需的输入参数：

NUMBER_THREADS：计算中将使用的线程数。建议不要超过系统中可用的计算核心数。

REFERENCE：参考基因组FASTA文件。请确保参考基因组文件与比对阶段使用的文件相同。

TUMOR_DEDUPED_BAM：经过去重处理的肿瘤样本的BAM文件。

TUMOR_RECAL_DATA.TABLE：肿瘤样本的BQSR结果文件。

NORMAL_DEDUPED_BAM：经过去重处理的正常样本的BAM文件。

NORMAL_RECAL_DATA.TABLE：正常样本的BQSR结果文件。

TUMOR：BAM文件中肿瘤样本的SM标签名称。

NORMAL：BAM文件中正常样本的SM标签名称。

TMP_VARIANT_VCF：TNscope®变异调用输出的临时文件位置和文件名。

VARIANT_VCF：变异调用输出的位置和文件名。将创建相应的索引文件。软件将输出一个压缩的gz文件。

FILTER_VARIANT_VCF：设置最终阈值后的变异调用输出文件名。由于使用了-O z选项，输出文件将是一个bgzip压缩的vcf.gz文件。

ML_MODEL：机器学习模型文件。

$ML_THRESHOLD：根据模型确定变异为真的概率的阈值。建议使用0.81。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

640 (8).png

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至2023年3月份，Sentieon已经在全球范围内为1300+用户提供服务，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过700篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。

软件试用：https://www.insvast.com/sentieon

Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

使用TNscope®中机器学习模型

TNscope®中机器学习模型的目标

在TNscope®中使用机器学习模型

Sentieon软件介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

使用TNscope®中机器学习模型

TNscope®中机器学习模型的目标

在TNscope®中使用机器学习模型

Sentieon软件介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景