Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

简介: Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现

使用TNscope®中机器学习模型

TNscope®中机器学习模型的目标

TNscope®允许您使用机器学习模型进行变异过滤,以提高结果的准确性。机器学习模型的方法描述在https://www.biorxiv.org/content/early/2018/01/19/250647中,并在TNscope®中使用一系列灵敏设置来检测更多的候选变异,然后通过基于模型的变异过滤。

Sentieon®为您提供基于GIAB多个样本真集训练的机器学习模型https://github.com/genome-in-a-bottle

在TNscope®中使用机器学习模型

需要运行三个单独的命令来进行高灵敏设置调用变异,应用机器学习模型,并使用BCFtools设置模型阈值。输入的BAM文件应该进行过比对、去重复和BQSR处理。

sentieon driver -t NUMBER_THREADS -r REFERENCE \
  -i TUMOR_DEDUPED_BAM -q TUMOR_RECAL_DATA.TABLE \
  -i NORMAL_DEDUPED_BAM -q NORMAL_RECAL_DATA.TABLE \
  --algo TNscope --tumor_sample TUMOR --normal_sample NORMAL \
  --clip_by_minbq 1 --max_error_per_read 3 --disable_detector sv \
  --min_init_tumor_lod 2.0 --min_base_qual 10 --min_base_qual_asm 10 \
  --min_tumor_allele_frac 0.00005 TMP_VARIANT_VCF
sentieon driver -t NUMBER_THREADS -r REFERENCE --algo TNModelApply \
  --model ML_MODEL -v TMP_VARIANT_VCF VARIANT_VCF
bcftools filter -s "ML_FAIL" -i "INFO/ML_PROB > $ML_THRESHOLD" VARIANT_VCF \
  -O z -m x -o FILTER_VARIANT_VCF

以下是命令所需的输入参数:

NUMBER_THREADS:计算中将使用的线程数。建议不要超过系统中可用的计算核心数。

REFERENCE:参考基因组FASTA文件。请确保参考基因组文件与比对阶段使用的文件相同。

TUMOR_DEDUPED_BAM:经过去重处理的肿瘤样本的BAM文件。

TUMOR_RECAL_DATA.TABLE:肿瘤样本的BQSR结果文件。

NORMAL_DEDUPED_BAM:经过去重处理的正常样本的BAM文件。

NORMAL_RECAL_DATA.TABLE:正常样本的BQSR结果文件。

TUMOR:BAM文件中肿瘤样本的SM标签名称。

NORMAL:BAM文件中正常样本的SM标签名称。

TMP_VARIANT_VCF:TNscope®变异调用输出的临时文件位置和文件名。

VARIANT_VCF:变异调用输出的位置和文件名。将创建相应的索引文件。软件将输出一个压缩的gz文件。

FILTER_VARIANT_VCF:设置最终阈值后的变异调用输出文件名。由于使用了-O z选项,输出文件将是一个bgzip压缩的vcf.gz文件。

ML_MODEL:机器学习模型文件。

$ML_THRESHOLD:根据模型确定变异为真的概率的阈值。建议使用0.81。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640 (8).png

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。


软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
4天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
4天前
|
机器学习/深度学习 传感器 自动驾驶
探索机器学习在图像识别中的创新应用
本文深入分析了机器学习技术在图像识别领域的最新进展,探讨了深度学习算法如何推动图像处理技术的突破。通过具体案例分析,揭示了机器学习模型在提高图像识别准确率、效率及应用场景拓展方面的潜力。文章旨在为读者提供一个全面的视角,了解当前机器学习在图像识别领域的创新应用和未来发展趋势。
|
8天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
5天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
21 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
65 11
|
9天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
28 1
|
14天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
41 4
|
15天前
|
机器学习/深度学习 TensorFlow API
机器学习实战:TensorFlow在图像识别中的应用探索
【10月更文挑战第28天】随着深度学习技术的发展,图像识别取得了显著进步。TensorFlow作为Google开源的机器学习框架,凭借其强大的功能和灵活的API,在图像识别任务中广泛应用。本文通过实战案例,探讨TensorFlow在图像识别中的优势与挑战,展示如何使用TensorFlow构建和训练卷积神经网络(CNN),并评估模型的性能。尽管面临学习曲线和资源消耗等挑战,TensorFlow仍展现出广阔的应用前景。
42 5
|
18天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
56 1
|
9天前
|
机器学习/深度学习 人工智能 安全
人工智能与机器学习在网络安全中的应用
人工智能与机器学习在网络安全中的应用
27 0