Sentieon | 每周文献-Benchmark and Method Study-第十九期

简介: Sentieon | 每周文献-Benchmark and Method Study-第十九期

基准与方法研究系列文章-1


  • 标题(英文):DNAscope: High accuracy small variant calling using machine learning
  • 标题(中文):DNAscope:使用机器学习的高精度小变异调用
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司
  • 发表年份:2022
  • 文章地址
    https://doi.org/10.1101/2022.05.20.492556

 

 

图1 文献介绍

研究者介绍的 DNAscope 是一种精确高效的种系小变异调用器。DNAscope 结合了 GATK 的 HaplotypeCaller 强大而成熟的数学以及机器学习的基因分型模型。DNAscope和DNAseq(Sentieon的GATK匹配种系变异调用管道)的基准测试表明,DNAscope能以更低的计算成本实现更高的SNP和InDel准确性。GATK HaplotypeCaller 因其高精度而成为行业标准的小型变异体调用器。通过将贝叶斯统计模型与reads单倍型的直接建模和变异过滤器相结合,HaplotypeCaller 在各种公共和第三方基准测试中取得了最高性能。然而,包括 HaplotypeCaller 在内的基于短reads技术的现有变异调用器与高置信度变异调用的匹配并不完美,尤其是在同源多聚物和其他重复位点等复杂基因组区域。这些复杂区域中有许多与临床相关,随着下一代测序数据越来越多地用于临床检测,提高这些位点的变异调用准确性变得越来越重要。

 

 

图2 DNAscope 方法概述

 

为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。样本 HG001 和 HG005 没有进行基准测试,因为它们是在 DNAscope 模型训练过程中使用的。


 

图3 DNAscope 和 DNAseq 的精确召回曲线

 

图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

 

图6 DNAscope 在多个 AWS C6i 实例上的运行时


综上所述,在这项工作中,研究者证明了 DNAscope 在不同样本和不同覆盖水平上都比 DNAseq 获得了更高的准确性。通过使用 GA4GH 分层区域进行分层分析,证实了 DNAscope 在大多数分层区域中的高准确性,并强调了 DNAscope 在含有基因组区域的 indels 和分层中更高的准确性,而在这些区域中,变异调用更为困难。DNAscope将GATK的HaplotypeCaller中使用的成熟的数学和统计模型与变异基因分型的机器学习相结合,在保持计算效率的同时实现了更高的准确性。

 

基准与方法研究系列文章-2


  • 标题(英文):Unifying comprehensive genomics and transcriptomics in individual cells to illuminate oncogenic and drug resistance mechanisms
  • 标题(中文):统一单个细胞的综合基因组学和转录组学,揭示致癌和耐药机制
  • 发表期刊:bioRxiv
  • 作者单位:BioSkryb Genomics公司
  • 发表年份:2022
  • 文章地址
    https://doi.org/10.1101/2022.04.29.489440

 

图1 文献介绍


在缺乏潜在基因组贡献的情况下发现转录变异会阻碍对疾病分子机制的理解。为了评估单个细胞中的这种协调性,研究者利用新的工作流程 ResolveOME,利用主模板定向扩增(PTA)的特性,结合全转录 RNA-seq 对单核苷酸变异进行准确、完整的基因组评估。在样本数据分析部分,研究者将Sentieon不同工具模块进行整合,构建了BJ-WGS分析管道。

 

图2 Sentieon的作用

 

图3 工作流性能特征

在该研究中,首先,研究者在分析转录组的同时,还证明了细胞身份背后强大的等位基因代表性。其次,举例说明了当肿瘤细胞受到选择性压力时,基因组和转录组状态的可塑性。第三,展示了利用同步的多种分子模式无偏见地识别恶性细胞克隆,这可以提高分子病变检测的灵敏度。

 

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。


 

 

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

目录
相关文章
【最佳实践】宜搭的报表分析功能
“单据表单”和”流程表单”中提交的数据,可以在”报表页面”中作为数据源,进行进一步的分析。当一个表单中存在明细时,为了支持分析,宜搭进行了一些额外的处理。下面以一个具体场景(进货单)进行具体介绍
【最佳实践】宜搭的报表分析功能
|
5月前
|
存储 弹性计算 运维
阿里云经济型e与通用算力型u1实例有何不同?性能、场景、价格对比与选型参考
在我们选择阿里云服务器实例规格时,经济型e实例和通用算力型u1实例因高性价比与广泛的适用性,深受个人开发者以及中小企业的喜爱。这两款实例不仅在价格上极具竞争力,而且在性能、稳定性以及适用场景方面也各有长处。它们之间究竟存在怎样的区别?在性能表现和适用场景上又有哪些不同?我们又该如何做出选择呢?本文会详细解读这两款实例的性能特点、适用场景、价格优势,以供大家参考。
|
3月前
|
传感器 编解码 数据可视化
GEE数据集:2017-2024年全球多源遥感数据融合的全新10米数据集(无量纲)Satellite Embedding V1
Google Satellite Embedding 数据集提供全球10米分辨率的64维嵌入向量,编码地表条件的时间轨迹,适用于变化检测与地理分析。
369 0
|
3月前
|
Web App开发 安全 Linux
Linux 比起其他系统的5 个优点和 5 个缺点
对Linux系统感兴趣的朋友,可以点击下方书籍进行学习。
|
5月前
|
敏捷开发 人工智能 数据可视化
从方法到工具:一文教会你用GTD工作法高效管理时间
在知识经济时代,GTD(Getting Things Done)时间管理理念成为提升效率的核心方法。本文深度解析GTD五步法(收集、处理、组织、回顾、执行),并测评7款主流工具(OmniFocus、Notion、板栗看板等),针对个人、中小团队及企业级用户需求提供选型建议。通过方法论与工具结合,助力实现高效任务管理与目标达成。
|
8月前
|
存储 算法 文件存储
探秘文件共享服务之哈希表助力 Python 算法实现
在数字化时代,文件共享服务不可或缺。哈希表(散列表)通过键值对存储数据,利用哈希函数将键映射到特定位置,极大提升文件上传、下载和搜索效率。例如,在大型文件共享平台中,文件名等信息作为键,物理地址作为值存入哈希表,用户检索时快速定位文件,减少遍历时间。此外,哈希表还用于文件一致性校验,确保传输文件未被篡改。以Python代码示例展示基于哈希表的文件索引实现,模拟文件共享服务的文件索引构建与检索功能。哈希表及其分布式变体如一致性哈希算法,保障文件均匀分布和负载均衡,持续优化文件共享服务性能。
|
11月前
|
网络协议 应用服务中间件 网络安全
odoo17在线聊天报错提示 Couldn‘t bind the websocket...
当 Odoo 17 报错 "Couldn't bind the websocket..." 时,通过检查和配置 WebSocket 端口、防火墙规则、代理服务器以及 Odoo 配置文件,可以有效解决此问题。确保每一步操作准确无误,最终重启相关服务,使配置生效。希望这些步骤能帮助您快速恢复 Odoo 的在线聊天功能。
371 1
|
数据可视化 搜索推荐 数据挖掘
数据分析案例-顾客购物数据可视化分析
数据分析案例-顾客购物数据可视化分析
702 0
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化研究到生产的工作流程
【8月更文第29天】深度学习项目往往面临着从研究阶段到生产部署的挑战。研究人员和工程师需要处理大量的工程问题,比如数据加载、模型训练、性能优化等。PyTorch Lightning 是一个轻量级的封装库,旨在通过减少样板代码的数量来简化 PyTorch 的使用,从而让开发者更专注于算法本身而不是工程细节。
374 1
|
前端开发
【vue3】前端实现 生成条形码并调用打印机打印
【vue3】前端实现 生成条形码并调用打印机打印
1351 1
下一篇
开通oss服务