Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期

简介: Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期

长读测序系列文章-1

  • 标题(英文): PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions
    • 标题(中文): PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测
    • 发表期刊: Cell Genomics
    • 作者单位: 美国国家标准与技术研究院材料测量实验室、美国食品药品管理局、Sentieon 公司、谷歌公司等
    • 发表年份: 2022
    • 文章地址: https://doi.org/10.1016/j.xgen.2022.100129

111.png

PrecisionFDA 始于 2015 年,旨在支持美国食品药品管理局 (FDA) 在基因组学方面的监管标准制定,此后扩展到支持所有组学领域。precisionFDA挑战框架是该平台最具对外特征的功能之一。该框架在面向公众的环境中举办生物数据挑战,并提供用于测试和验证的可用资源。
第一届瓶中基因组(GIAB)-precisionFDA 真相挑战于 2016 年举办,项目要求参与者从两个 GIAB 样本的短读长数据中进行小型变异检测。HG001 样本(也作 NA12878)的基准测试先前公开过,但是 HG002 样本的基准测试未公开过。这使得 HG002成为第一个盲法胚系突变挑战,公开的检测结果可以作为新的检测方法的比较点。

112.jpg

与第一次真相挑战集中在基因组简单区域不同,在本次挑战中,除了提供来自 illumina 的短读长数据外,还包括Pacific Biosciences [PacBio] HiFi和Oxford Nanopore Technologies [ONT]的长读长数据,以评估各种数据类型的性能。本次基准测试涉及基因组重复区域和 MHC 等复杂区域。
参赛者被要求利用 GIAB 德系犹太人的家系样本不同数据平台产出的数据进行变异检测,提交最终 VCF 格式变异检测结果。最终,20 支来自全球各地的团队提交了 64 个结果。

113.jpg
114.png

可以看到大部分提交都使用了深度学习算法,特别是在长读长数据处理中。另外,Sentieon 公司的提交在所有三中测序平台数据及所有基准测试、难比对区域及 MHC 区域等各方面均具有 top 级别表现。

综上所述,本次真相挑战凸显了在表征临床重要 MHC 位点方面、增加了基因组难比对区域的基准集、首次使用了盲法样本等诸多创新。通过比较各提交者的结果,发现与第一次真相挑战相比,某些方法针对于非盲样本可能存在过度拟合的情况。

长读测序系列文章-2

  • 标题(英文): The Gossypium herbaceum L. Wagad genome as a resource for understanding cotton domestication
  • 标题(中文): 作为了解棉花驯化的资源,印度棉(Gossypium herbaceum L. Wagad)基因组
  • 发表期刊: G3 Genes/Genomes/Genetics
  • 作者单位: 德保罗大学、爱荷华州立大学等
  • 发表年份: 2022
  • 文章地址: https://doi.org/10.1093/g3journal/jkac308

115.png

亚洲栽培棉是一种原产非洲和亚洲的棉花物种,是2个已驯化的二倍体物种之一,全世界 95%的种植棉花都起源于此。为了表征棉花变异和提高基因组资源准确性,研究人员对亚洲栽培棉的第一个驯化品种 Wagad 进行了测序和组装。染色体水平的基因组通过联合 PacBio 长读长测序技术、HiC 和 Bionano 光学图谱以及与已有棉花参考基因组进行比较后得到。通过比较 Wagad 品种与野生品种基因组和转录组层面的差异,阐明了棉花基因组在驯化过程中的变化,这将为棉花育种提供新的见解。

116.png

研究者通过将PacBio 长读长数据进行组装后对基因组进行 repeat 和 gene 注释。然后,利用测序或者从公开发表文献中下载的棉花基因组数据进行比对、变异检测、联合基因分型对亚洲栽培棉和非洲亚种进行比较。此过程中,Sentieon DNAseq 模块被用于 illumina 数据的变异检测和联合基因分型。

117.png

综上所述,棉花是一种重要的纤维作物,经过多次独立驯化。在搞研究中,研究者报告了亚洲栽培棉Wagad 品种的基因组序列。该序列补充了现有基因组组装和多样性研究,未了解棉花基因组结构和遗传多样性提供了基础,为二倍体棉花育种提供了额外的视角。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640 (8).png

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
2天前
|
NoSQL 数据挖掘 数据库
Sentieon | 每周文献-Long Read Sequencing-第二十九期
Sentieon | 每周文献-Long Read Sequencing-第二十九期
25 0
|
2天前
|
算法 数据挖掘
Sentieon | 每周文献-Long Read Sequencing-第十八期
Sentieon | 每周文献-Long Read Sequencing-第十八期
23 1
|
9月前
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
57 0
|
2天前
|
JSON JavaScript 前端开发
解决js中Long类型数据在请求与响应过程精度丢失问题(springboot项目中)
解决js中Long类型数据在请求与响应过程精度丢失问题(springboot项目中)
48 0
|
2天前
|
编译器 C语言
c语言中long的作用类型
c语言中long的作用类型
35 0
|
7月前
|
Java
【面试题精讲】Java超过long类型的数据如何表示
【面试题精讲】Java超过long类型的数据如何表示
|
2天前
|
存储
TS 自定义结构Long与number类型相互转换
TS 自定义结构Long与number类型相互转换
|
2天前
|
Oracle 关系型数据库 数据库
Flink Sink to Oracle 存在字段CLOB类型,如何处理错误”ORA-01461: 仅能绑定要插入LONG的LONG值“
做Flink CDC同步数据过程中,目标是Oracle数据库,其中某个字段较大被设置为CLOB类型,其中会遇到异常,”ORA-01461: 仅能绑定要插入LONG的LONG值“
|
2天前
|
存储 前端开发 JavaScript
由Long类型引发的生产事故
由Long类型引发的生产事故