Hap-Eval:Sentieon团队开发的开源结构变异SV准确率评估工具

简介: Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

Sentieon开发的Hap-eval准确率评估工具在设计之初就考虑到了复杂以及重复的基因组区域,采用了基于单倍型拼接序列的矩阵比较模式,兼容包括PacBio和ONT在内的主流三代长读长测序数据。另外值得一提的是,Hap-eval基于python所写,运行效率非常高,速度快,非常适用于大规模分析场景。


开源地址

https://github.com/Sentieon/hap-eval

工具介绍

Sentieon的研发团队开发了SV评估软件 Hap-eval。Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

image.png

安装方法

git clone --recurse-submodules https://github.com/Sentieon/hap-eval.git
pip install ./hap-eval

使用方法

```

usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]
                [--comp_out VCF] [--maxdist INT] [--minsize INT]
                [--maxdiff FLOAT] [--metric STR]
optional arguments:
-h, --help            show this help message and exit-r FASTA, --reference FASTA
                        Reference file
-b VCF, --base VCF    Baseline vcf file
-c VCF, --comp VCF    Comparison vcf file
-i BED, --interval BED
                        Evaluation region file
-t INT, --thread_count INT
                        Number of threads
--base_out VCF        Annotated baseline vcf file
--comp_out VCF        Annotated comparison vcf file
--maxdist INT         Maximum distance to cluster variants (default: 1000)
--minsize INT         Minimum size of variants to consider (default: 50)
--maxdiff FLOAT       Haplotype difference theshold (default: 0.2)
--metric STR          Distance metric (default: Levenshtein)


使用反馈

Hap-Eval 是一款新发布软件,功能在持续完善开发中。如果 遇到不能Hap-Eval不能适配的 VCF文件,可通过github或sentieon@insvast.com及时反馈。

相关文章
|
2月前
|
算法
基于R语言混合效应模型(mixed model)案例研究
基于R语言混合效应模型(mixed model)案例研究
|
9天前
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
16 6
|
7天前
|
机器学习/深度学习 数据采集 人工智能
特征工程对ML/DL至关重要,涉及数据清洗、转换和特征选择,以提升模型预测和泛化能力。
【6月更文挑战第28天】特征工程对ML/DL至关重要,涉及数据清洗、转换和特征选择,以提升模型预测和泛化能力。它改善数据质量,浓缩关键信息,优化性能,增强解释性。特征选择,如过滤法、RFE、嵌入式和包裹式方法,是关键步骤,常需迭代和结合业务知识。自动化工具如AutoML简化了这一过程。
9 0
|
2月前
基于R语言混合效应模型(mixed model)案例研究-1
基于R语言混合效应模型(mixed model)案例研究
|
2月前
|
算法
R语言实现 Copula 算法建模依赖性案例分析报告
R语言实现 Copula 算法建模依赖性案例分析报告
|
8月前
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
372 1
|
2月前
|
算法
基于R语言混合效应模型(mixed model)案例研究-2
基于R语言混合效应模型(mixed model)案例研究
|
2月前
|
安全 算法 测试技术
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
|
2月前
|
数据可视化
R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据
R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据
|
2月前
|
自然语言处理
衡量大语言模型表现的 MT-bench 指标
衡量大语言模型表现的 MT-bench 指标

热门文章

最新文章