Sentieon 应用教程 | 使用CNVscope进行CNV检测分析-阿里云开发者社区

Sentieon 应用教程 | 使用CNVscope进行CNV检测分析

2024-09-03 31

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失，方法是通过分析reads的深度信息，并结合断点检测等其他特征进行拷贝数判断。

背景介绍

CNV检测已成为全基因组分析的常规内容，并显著提升了阳性诊断率。然而，由于实验室水平和所使用软件的差异，目前仍难以全面、准确地覆盖CNV的检测与细节分析。尤其在数据分析环节，目前尚无开源软件能够在性能优越的同时，全面解决这一问题。以流行的CNVnator为例，这是一款基于Read Depth（RD）原理的拷贝数变异检测软件，主要用于全基因组数据分析。CNVnator不仅能在人群中进行拷贝数变异检测和基因分型，还能根据需求鉴定一些非典型CNV。

微信图片_20240830180121.jpg

总体而言，CNVnator具备较高的灵敏度、较低的错误发现率、并且其断点检测分辨率较高。然而，作为一款经典软件，CNVnator在应对现今多平台测序数据和新一代参考基因组等最新数据类型时，已表现出一定的局限性。

1.适用场景

CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失，方法是通过分析reads的深度信息，并结合断点检测等其他特征进行拷贝数判断。

2.环境必备

软件授权：License须开通CNV模块权限
软件下载：https://insvast-download.oss-cn-shanghai.aliyuncs.com/Sentieon/release/sentieon-genomics-202308.03.tar.gz
模型下载：https://insvast-download.oss-cn-shanghai.aliyuncs.com/Sentieon/release/ml_model/SentieonIlluminaWGS2.2.bundle

3.分析流程

运行两个独立的命令来进行 CNV 检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。

sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \ --algo CNVscope --model SentieonIlluminaWGS2.2.bundle/cnv.model TMP_VARIANT_VCF

sentieon driver -t NUMBER_THREADS -r REFERENCE --algo CNVModelApply \ --model SentieonIlluminaWGS2.2.bundle/cnv.model -v TMP_VARIANT_VCF VARIANT_VCF

注意：使用同一个模型进行CNVscope和CNVModelApply操作很重要，如果使用不同的模型，CNVModelApply计算会报错。

4.参数说明

以下是输入参数说明：

NUMBER_THREADS：计算中将使用的计算机线程数。我们建议该数量不要超过您系统中可用的计算核心数。
REFERENCE：参考FASTA文件的位置。您应确保该参考与映射阶段使用的参考相同。
DEDUPED_BAM：输入BAM文件的位置。
TMP_VARIANT_VCF：CNVscope变异调用输出的位置和文件名。这是一个临时文件。
VARIANT_VCF：变异调用输出的位置和文件名。将创建一个相应的索引文件。该工具将使用.gz扩展名输出压缩文件。

5.结果说明

最终输出的VCF文件使用CN注释来表示CNVscope机器学习模型调用的每个区域的拷贝数状态。CNVscope调用的可能拷贝数状态从0到4，其中CN=4表示拷贝数状态等于或大于4。

附录：研发细节

在CNVscope的开发过程中，建立新一代的CNV真集用于训练和测试是最为关键的一步。目前常用的CNV真值集主要来自GIAB的HG002项目和千人基因组计划。然而，由于这些真值集依赖于早期的短读长技术，特别是在低复杂度区域的准确性存在一定问题。

随着测序技术的进步，尤其是长读长测序的发展，使得染色体级别的全基因组组装成为可能。例如，HG002 T2T（端到端）联盟最近宣布完成了HG002所有46条染色体的完整组装，使得样本的结构变异（SV）表征更加准确。同样，Human Pangenome Reference Consortium（人类泛基因组参考联盟）也发布了多个高质量的组装结果，为业内研究者开发最新的分析工具提供了基础。

Sentieon团队在此次开发中，主要采用了最新的HG002 T2T真集以及泛基因组项目中的15个样本。这些真集利用了第三代测序数据，大大提升了结构变异检测的准确性。我们从这些真集中提取了超过5kb的DUP（重复）和DEL（缺失）变异，作为CNVscope开发的真集数据。其中，11个图形基因组样本作为训练集，其余4个样本和T2T数据作为测试集。所有数据均来自约30x深度的全基因组测序。