Hap-eval:Sentieon开源的多测序平台SV精度评估工具

简介: Hap-eval:Sentieon开源的多测序平台SV精度评估工具

开发背景

Sentieon专业软件开发团队除了专注于高效基因组数据分析工具的研发,还与专业合作伙伴一起积极的参与到大型的临床科研项目中,其中就包括了美国国立卫生研究院NIH赞助的Gabriella Miller Kids First (GMKF) 项目。此项目落地于费城儿童医院数据中心,已经产生了来自于2万名患者的4.8万套全基因组数据,涉及了包括44种儿童癌症以及出生缺陷在内的多种疾病。除了常规的二代测序之外,GMKF也启动了三代测序项目,评估长读长序列对于基因组结构变异(SV)检测的灵敏度与准确性。相比于二代数据,三代数据不但可以更好的检测到大跨度的结构变异,同时还可以更加准确的提供定相(Phasing)分析。



作为项目的基础,高质量的SV准确率评估工具是必不可少的。然而目前主流的SV评测工具有些主要针对短读长数据,有些无法检测复杂区域尤其是重复区域,而这些需求对于三代长读长SV的准确性评估极为重要。


工具原理


基于项目对效率和精度的要求,Sentieon团队开发了Hap-eval工具,并将之开源。Hap-eval工具是基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。



安装方法



git clone --recurse-submodules https://github.com/Sentieon/hap-eval.git
pip install ./hap-eval


使用方法



usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]
[
--comp_out VCF] [--maxdist INT] [--minsize INT]
[
--maxdiff FLOAT] [--metric STR]

optional arguments:
-h, --help show this help message and exit
-r FASTA, --reference FASTA
Reference file
-b VCF, --base VCF Baseline vcf file
-c VCF, --comp VCF Comparison vcf file
-i BED, --interval BED
Evaluation region file
-t INT, --thread_count INT
Number of threads
--base_out VCF Annotated baseline vcf file
--comp_out VCF Annotated comparison vcf file
--maxdist INT Maximum distance to cluster variants (default: 1000)
--minsize INT Minimum size of variants to consider (default: 50)
--maxdiff FLOAT Haplotype difference theshold (default: 0.2)
--metric STR Distance metric (default: Levenshtein)


开源地址



https://github.com/Sentieon/hap-eval


 


软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
7月前
|
算法
基于R语言混合效应模型(mixed model)案例研究
基于R语言混合效应模型(mixed model)案例研究
|
17天前
|
人工智能
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了
Decentralized Arena(De-Arena)是一个用于评估大语言模型(LLM)的多维度、去中心化基准平台。它通过分布式评估机制提高公正性和透明度,采用多维度指标全面衡量模型性能,实现自动化和可复现的评估流程,促进LLM技术的健康发展与合作交流。
22 7
|
3月前
|
机器学习/深度学习 编解码 数据挖掘
Sentieon 应用教程 | 使用CNVscope进行CNV检测分析
CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失,方法是通过分析reads的深度信息,并结合断点检测等其他特征进行拷贝数判断。
37 1
|
6月前
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
92 6
|
7月前
|
数据可视化 Python
R语言GARCH建模常用软件包比较、拟合标准普尔SP 500指数波动率时间序列和预测可视化
R语言GARCH建模常用软件包比较、拟合标准普尔SP 500指数波动率时间序列和预测可视化
|
7月前
基于R语言混合效应模型(mixed model)案例研究-1
基于R语言混合效应模型(mixed model)案例研究
|
7月前
|
vr&ar Python
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
|
7月前
|
运维 数据可视化 测试技术
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
378 2
|
7月前
|
算法
基于R语言混合效应模型(mixed model)案例研究-2
基于R语言混合效应模型(mixed model)案例研究
|
7月前
|
数据采集 vr&ar
R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长
R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长