Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期

简介: Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期

基准与方法研究系列文章-1

  • 标题(英文): Standardized Comparison of Different DNA Sequencing Platforms
  • 标题(中文): 不同 DNA 测序平台的标准化比较
  • 发表期刊: Clinical Chemistry
  • 作者单位: 美国德克萨斯大学西南医学中心病理系
  • 发表年份: 2022
  • 文章地址:https://doi.org/10.1093/clinchem/hvac023

二代测序(NGS)已广泛应用于许多实验室的临床试验,并提供广泛的应用,从靶向肿瘤学组合到用于细菌分类的宏基因组测序,再到基于群体的全基因组测序。第三代测序技术可以对长度为数千个碱基对的长读长(LR)进行测序,也可以检测更大的结构变化(例如,易位,倒置,重复)。LR测序的一个优点是能够解析基因组中难以测序的区域,其中存在大量重复序列,这些区域可能难以与参考基因组进行正确比对。直到最近才在临床实验室测试的背景下对SR和LR技术进行大规模全面比较。

生物分子资源设施协会最近发布了他们对DNA测序技术的基准评估。该研究在使用SR或LR的各种测序平台上对人和细菌DNA样品进行了测序,并将其性能与成熟的基因组重复区域进行了比较。目标是定义可重复的DNA测序基准测试工具,该工具可以深入了解每种仪器在许多基因组环境中的相对优势和劣势,从而更好地评估平台使用情况。

该研究对目前市面上流程的测序公司的几个主要平台进行了详细比较。包括Illumina 公司的 HiSeq(4000、2500、X10)、华大基因及子公司的 BGISEQ-500 和 MGISEQ-2000 、 GenapSys公司的 GS111、赛默飞世尔Ion Proton、Ion S5等以PacBio 的 PacBio CCS 和 ONT 的 PromethION(R9.4)等测序平台。生物信息学分析流程也会影响准确性,因此该研究还评估了算法在 SNP、InDel检测(DeepVarinat、GATK HaplotypeCaller、Sentieon Haplotyper、Strelka2、Clair2)和结构变异检测(Manta、Lumpy 和 Delly)上的准确度。

该研究通过对不同测序平台测序数据及不同生信分析流程的比较,总结了不同平台的数据特点并分析了相应的原因。三代测序平台在重复区域和结构变异检测方面表现出色,但一些短读长测序平台如(HiSeq X10、4000)在重复区域的覆盖范围上具有较好的表现并在 SNP、InDel 检测的准确性上具有优势。在SNP、InDel 检测算法上,Sentieon 具有优秀表现。

基准与方法研究系列文章-2

  • 标题(英文): Accuracy benchmark of the GeneMind GenoLab M sequencing platform for WGS and WES analysis
  • 标题(中文): GeneMind 公司的 GenoLab M 测序平台 WGS 和 WES 数据基准测试
  • 发表期刊: BMC Genomics
  • 作者单位: 深圳真迈生物科技有限公司
  • 发表年份: 2022
  • 文章地址:https://doi.org/10.1186/s12864-022-08775-3

GenoLab M是GeneMind Biosciences最近开发的下一代测序(NGS)平台。为了确定GenoLab M的性能,研究者提出了一份报告,以对GenoLab M测序仪的WGS和WES测序数据进行基准测试,并将GenoLab M测序仪与NovaSeq 6000和NextSeq 550平台在各种类型的分析中进行比较。对于WGS,来自Illumina NovaSeq平台并由GATK管道处理的30×测序目前被认为是黄金标准。该数据集是作为本研究的基准数据的。

2014年,瓶中基因组(GIAB)发布了金标准基因型数据集(包括参考样本NA12878),为比较变异检测流程的差异提供了资源。最近,一些研究使用GIAB变异数据集来比较不同变异检测工具或测序平台。一般来说,WGS和WES的数据深度分别在30倍和100倍以上。本研究获得了从多个测序平台生成的NA12878标准样品的WES和WGS数据集,包括NextSeq 550,NovaSeq 6000和GenoLab M。

在分析部分,选择了两个管道:

Sentieon DNAscope管道,基于机器学习(ML)的变体调用工作流(https://github.com/Sentieon/sentieon-dnascope-ml)和DNAseq工作流,这是一个加速的GATK重新实现。

在该研究中,GenoLab M 的平均 Q20 比 NovaSeq 6000 略低,但在相同的测序深度下,GenoLab M 重复率比 Novaseq 6000 低一半,并且 22×的 WGS 的准确度高于 22×NovaSeq 准确度,并达到了 33×NovaSeq 相似的性能。

综上所述,对于WGS,GeneMind测序平台中的22X与Illumina NovaSeq 6000 33X深度相似,这提供了一种有效的替代方案。而GenoLab M的100X WES在相同深度下表现出与Illumina平台相似或优越的性能,在WES中也具有应用前景。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。


软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
2月前
|
算法 数据挖掘 测试技术
Sentieon | 每周文献-Benchmark and Method Study-第三十期
Sentieon | 每周文献-Benchmark and Method Study-第三十期
26 1
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之在使用DSSM负采样时,不知道label_fields的配置方法如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8月前
|
机器学习/深度学习 安全 Java
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
360 0
|
11月前
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期
Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期
64 1
Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期
|
2月前
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Benchmark and Method Study-第十九期
Sentieon | 每周文献-Benchmark and Method Study-第十九期
40 0
|
2月前
|
机器学习/深度学习 编解码 人工智能
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
193 0
|
2月前
|
机器学习/深度学习 存储 人工智能
NeurIPS'23 Paper Digest | PromptTPP: Prompt Pool 与时序点过程模型的持续学习
我们完成了首个把 Prompt Pool 机制首次引入时间序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。
NeurIPS'23 Paper Digest | PromptTPP: Prompt Pool 与时序点过程模型的持续学习
|
存储 负载均衡 计算机视觉
【训练Trick】让你在一张卡上训练1000万个id人脸数据集成为可能(附开源代码和论文链接)
【训练Trick】让你在一张卡上训练1000万个id人脸数据集成为可能(附开源代码和论文链接)
93 0
|
存储 人工智能 自然语言处理
揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning(1)
揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning
178 0

热门文章

最新文章