Hap-eval:Sentieon开源的多测序平台SV精度评估工具

简介: Hap-eval:Sentieon开源的多测序平台SV精度评估工具

开发背景

Sentieon专业软件开发团队除了专注于高效基因组数据分析工具的研发,还与专业合作伙伴一起积极的参与到大型的临床科研项目中,其中就包括了美国国立卫生研究院NIH赞助的Gabriella Miller Kids First (GMKF) 项目。此项目落地于费城儿童医院数据中心,已经产生了来自于2万名患者的4.8万套全基因组数据,涉及了包括44种儿童癌症以及出生缺陷在内的多种疾病。除了常规的二代测序之外,GMKF也启动了三代测序项目,评估长读长序列对于基因组结构变异(SV)检测的灵敏度与准确性。相比于二代数据,三代数据不但可以更好的检测到大跨度的结构变异,同时还可以更加准确的提供定相(Phasing)分析。



作为项目的基础,高质量的SV准确率评估工具是必不可少的。然而目前主流的SV评测工具有些主要针对短读长数据,有些无法检测复杂区域尤其是重复区域,而这些需求对于三代长读长SV的准确性评估极为重要。


工具原理


基于项目对效率和精度的要求,Sentieon团队开发了Hap-eval工具,并将之开源。Hap-eval工具是基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。



安装方法



git clone --recurse-submodules https://github.com/Sentieon/hap-eval.git
pip install ./hap-eval


使用方法



usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]
[
--comp_out VCF] [--maxdist INT] [--minsize INT]
[
--maxdiff FLOAT] [--metric STR]

optional arguments:
-h, --help show this help message and exit
-r FASTA, --reference FASTA
Reference file
-b VCF, --base VCF Baseline vcf file
-c VCF, --comp VCF Comparison vcf file
-i BED, --interval BED
Evaluation region file
-t INT, --thread_count INT
Number of threads
--base_out VCF Annotated baseline vcf file
--comp_out VCF Annotated comparison vcf file
--maxdist INT Maximum distance to cluster variants (default: 1000)
--minsize INT Minimum size of variants to consider (default: 50)
--maxdiff FLOAT Haplotype difference theshold (default: 0.2)
--metric STR Distance metric (default: Levenshtein)


开源地址



https://github.com/Sentieon/hap-eval


 


软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
机器学习/深度学习 数据采集 人工智能
大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析(上)
大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析(上)
1413 0
|
人工智能
AI背景颜色变成白色了怎么恢复灰色?
一些刚开始使用AI来做平面设计的朋友,有时候会突然工作界面变成白色,而设置里看了是灰色,然后怎样都调不回来了。贴吧里一篇文章介绍用CTRL+SHIFT+H,实际上这是隐藏画板的快捷键并没有解决问题。
AI背景颜色变成白色了怎么恢复灰色?
|
4月前
|
存储 SQL 大数据
告别 Count Distinct 慢查询:StarRocks 高效去重全攻略
在大数据分析中,去重计算(如 Count Distinct)因高计算开销常成为性能瓶颈,尤其在高基数和高并发场景下更为明显。本文以 StarRocks 为分析平台,深入探讨多种去重优化策略,包括使用函数、数据类型转换(如 String 转 Int)、高效数据结构(如 Bitmap 和 HLL),以及物化视图的预计算方案。通过实际案例分析,对比不同方法在性能、精度和易用性方面的优劣,帮助用户在不同业务场景下选择最合适的优化手段。此外,文章还详细解析了如何结合 SQL 查询构建物化视图,以提升去重计算效率,并讨论了精确与近似去重的适用场景。最终目标是为复杂数据分析提供高效、灵活的解决方案。
|
安全 网络安全
网络漏洞
指硬件、软件或策略上的缺陷,这种缺陷导致非法用户 未经授权而获得访问系统的权限或提高其访问权限。有了这种访问权限,非法用户就可以为所欲为,从而造成对网络安全的威胁。 区别于后门。后门:是软硬件制造者为了进行非授权访问而在程序中故意设置的万能访问口令,这些口令无论是被攻破,还是只掌握在制造者手中,都对使用者的系统安全构成严重的威胁。 漏洞与后门是不同的,漏洞是难以预知的,后门则是人为故意设置的。
|
编解码 Ubuntu 算法
Ubuntu桌面图标指南:一文了解如果设置ubuntu 软件图标
Ubuntu桌面图标指南:一文了解如果设置ubuntu 软件图标
3697 0
|
机器学习/深度学习 安全 数据挖掘
Swift语言的应用场景非常广泛
Swift语言的应用场景非常广泛
525 4
|
程序员 API 开发者
探索Python中的异步编程:从asyncio到Trio
在本文中,我们将深入探讨Python的异步编程世界。不同于传统摘要的枯燥介绍,我们将通过一个虚构的故事,讲述一个名叫艾丽的程序员如何在一个周末的编程马拉松中,通过使用Python的asyncio库解决了一个复杂的并发问题,并在最后意外发现了Trio库,从而开启了她对异步编程的新理解。
|
存储
操作系统第五章_03 假脱机技术 (SPOOLing技术)
操作系统第五章_03 假脱机技术 (SPOOLing技术)
1338 0
操作系统第五章_03 假脱机技术 (SPOOLing技术)
|
JavaScript
vue点击瞄点平滑滚动 | 锚点随页面滚动高亮显示 | 点击平滑滚动到页面顶部
vue点击瞄点平滑滚动 | 锚点随页面滚动高亮显示 | 点击平滑滚动到页面顶部
464 1
3个常用的Python性能分析工具及其使用方法
以下是几个常用的性能分析工具及其使用方法和常用命令: