Sentieon 应用教程 | 使用CNVscope进行CNV检测分析

简介: CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失,方法是通过分析reads的深度信息,并结合断点检测等其他特征进行拷贝数判断。

背景介绍

CNV检测已成为全基因组分析的常规内容,并显著提升了阳性诊断率。然而,由于实验室水平和所使用软件的差异,目前仍难以全面、准确地覆盖CNV的检测与细节分析。尤其在数据分析环节,目前尚无开源软件能够在性能优越的同时,全面解决这一问题。以流行的CNVnator为例,这是一款基于Read Depth(RD)原理的拷贝数变异检测软件,主要用于全基因组数据分析。CNVnator不仅能在人群中进行拷贝数变异检测和基因分型,还能根据需求鉴定一些非典型CNV。

微信图片_20240830180121.jpg

总体而言,CNVnator具备较高的灵敏度、较低的错误发现率、并且其断点检测分辨率较高。然而,作为一款经典软件,CNVnator在应对现今多平台测序数据和新一代参考基因组等最新数据类型时,已表现出一定的局限性。

1.适用场景

CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失,方法是通过分析reads的深度信息,并结合断点检测等其他特征进行拷贝数判断。

2.环境必备

3.分析流程

运行两个独立的命令来进行 CNV 检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。

sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \ --algo CNVscope --model SentieonIlluminaWGS2.2.bundle/cnv.model TMP_VARIANT_VCF

sentieon driver -t NUMBER_THREADS -r REFERENCE --algo CNVModelApply \ --model SentieonIlluminaWGS2.2.bundle/cnv.model -v TMP_VARIANT_VCF VARIANT_VCF

注意:使用同一个模型进行CNVscope和CNVModelApply操作很重要,如果使用不同的模型,CNVModelApply计算会报错。

4.参数说明

以下是输入参数说明:

  • NUMBER_THREADS:计算中将使用的计算机线程数。我们建议该数量不要超过您系统中可用的计算核心数。
  • REFERENCE:参考FASTA文件的位置。您应确保该参考与映射阶段使用的参考相同。
  • DEDUPED_BAM:输入BAM文件的位置。
  • TMP_VARIANT_VCF:CNVscope变异调用输出的位置和文件名。这是一个临时文件。
  • VARIANT_VCF:变异调用输出的位置和文件名。将创建一个相应的索引文件。该工具将使用.gz扩展名输出压缩文件。

5.结果说明

最终输出的VCF文件使用CN注释来表示CNVscope机器学习模型调用的每个区域的拷贝数状态。CNVscope调用的可能拷贝数状态从0到4,其中CN=4表示拷贝数状态等于或大于4。

附录:研发细节

在CNVscope的开发过程中,建立新一代的CNV真集用于训练和测试是最为关键的一步。目前常用的CNV真值集主要来自GIAB的HG002项目和千人基因组计划。然而,由于这些真值集依赖于早期的短读长技术,特别是在低复杂度区域的准确性存在一定问题。

随着测序技术的进步,尤其是长读长测序的发展,使得染色体级别的全基因组组装成为可能。例如,HG002 T2T(端到端)联盟最近宣布完成了HG002所有46条染色体的完整组装,使得样本的结构变异(SV)表征更加准确。同样,Human Pangenome Reference Consortium(人类泛基因组参考联盟)也发布了多个高质量的组装结果,为业内研究者开发最新的分析工具提供了基础。

Sentieon团队在此次开发中,主要采用了最新的HG002 T2T真集以及泛基因组项目中的15个样本。这些真集利用了第三代测序数据,大大提升了结构变异检测的准确性。我们从这些真集中提取了超过5kb的DUP(重复)和DEL(缺失)变异,作为CNVscope开发的真集数据。其中,11个图形基因组样本作为训练集,其余4个样本和T2T数据作为测试集。所有数据均来自约30x深度的全基因组测序。

Image.jpg

为展示准确度,我们将CNVscope与先前提到的CNVnator (v0.4.1) 和Illumina开发的DRAGEN CNV (v4.2) 在不同数据集上进行了逐一对比。

Image (1).jpg

图1 拷贝数重复事件


Image (2).jpg

图2 拷贝数缺失事件

从结果来看,Sentieon CNVscope 在WGS中的表现相较于现有的CNV工具,展现出极高的准确性(F1值)。目前,CNVscope正处于持续迭代阶段,当前主要聚焦于检测大于5kb的胚系WGS事件,而小于5kb的复制和缺失则由DNAscope的结构变异检测模块处理。

未来,CNVscope还将推出适用于外显子组测序(WES)数据和体细胞CNV的分析流程

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的钢铁缺陷实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv8的钢铁缺陷实时检测系统,通过1800张图片训练,开发了带GUI界面的检测系统,支持图片、视频和摄像头实时检测,提高生产效率和产品质量。系统基于Python和Pyside6开发,具备模型权重导入、检测置信度调节等功能。项目代码、数据集可通过特定链接获取。
57 1
基于YOLOv8的钢铁缺陷实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOV8的口罩佩戴实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
本文介绍了基于YOLOv8算法的口罩佩戴实时检测系统,该系统通过7959张训练图片训练出有效识别模型,开发了带GUI界面的系统,支持图片、视频和摄像头实时检测口罩佩戴情况,提高疫情防控效率。
49 3
基于YOLOV8的口罩佩戴实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的人员抽烟实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv8的人员抽烟实时检测系统,旨在通过2472张图片训练出有效模型,维护无烟环境,预防火灾,保护公众健康。系统支持图片、视频和摄像头检测,具备GUI界面,易于操作。使用Python和Pyside6开发,具备模型权重导入、检测置信度调节等功能。
50 1
基于YOLOv8的人员抽烟实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv10的无人机巡航小目标实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv10的无人机巡航小目标实时检测系统,通过7444张无人机场景训练图片,训练出能检测9类目标的模型,并开发了带GUI界面的系统,支持图片、视频和摄像头实时检测,具备背景和标题更换、模型选择、检测信息展示等功能。
116 0
基于YOLOv10的无人机巡航小目标实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的工业安全帽实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv8的工业安全帽实时检测系统,通过7581张图片训练,实现工作场所安全帽佩戴检测,降低工伤事故。系统支持图片、视频和摄像头实时检测,具备GUI界面,易于操作。使用Python和Pyside6开发,提供模型训练、评估和推理功能。
70 1
基于YOLOv8的工业安全帽实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
人工智能 算法 安全
基于YOLOv8的交通车辆实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv8的交通车辆实时检测系统,使用5830张图片训练出有效模型,开发了Python和Pyside6的GUI界面系统,支持图片、视频和摄像头实时检测,具备模型权重导入、检测置信度调节等功能,旨在提升道路安全和改善交通管理。
37 1
基于YOLOv8的交通车辆实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的人员跌倒实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
本文介绍了基于YOLOv8算法的人员跌倒实时检测系统,通过4978张图片训练出有效模型,并开发了带GUI界面的系统,支持图片、视频和摄像头实时检测,具备更换背景、标题,调节检测置信度等功能。
42 0
基于YOLOv8的人员跌倒实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
人工智能 算法 安全
基于YOLOV8的骑行智能守护实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
基于YOLOv8的骑行智能守护实时检测系统,通过图像处理和AI技术,实时监测电动车及骑行者头盔佩戴情况,提升道路安全。该系统支持图片、视频和摄像头实时检测,具备GUI界面,便于操作和展示结果。使用5448张真实场景图片训练,包含电动车和骑行者是否佩戴头盔的三类标注。系统基于Python和Pyside6开发,具备模型权重导入、检测置信度调节等功能。
48 0
基于YOLOV8的骑行智能守护实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
1月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
57 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
5月前
|
机器学习/深度学习 存储 编解码
基于YOLOv8与ByteTrack的车辆检测追踪与流量计数系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、车辆检测追踪、过线计数、流量统计(2)
基于YOLOv8与ByteTrack的车辆检测追踪与流量计数系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标追踪、车辆检测追踪、过线计数、流量统计