Hap-Eval:Sentieon团队开发的开源结构变异SV准确率评估工具

简介: Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

Sentieon开发的Hap-eval准确率评估工具在设计之初就考虑到了复杂以及重复的基因组区域,采用了基于单倍型拼接序列的矩阵比较模式,兼容包括PacBio和ONT在内的主流三代长读长测序数据。另外值得一提的是,Hap-eval基于python所写,运行效率非常高,速度快,非常适用于大规模分析场景。


开源地址

https://github.com/Sentieon/hap-eval

工具介绍

Sentieon的研发团队开发了SV评估软件 Hap-eval。Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

image.png

安装方法

git clone --recurse-submodules https://github.com/Sentieon/hap-eval.git
pip install ./hap-eval

使用方法

```

usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]
                [--comp_out VCF] [--maxdist INT] [--minsize INT]
                [--maxdiff FLOAT] [--metric STR]
optional arguments:
-h, --help            show this help message and exit-r FASTA, --reference FASTA
                        Reference file
-b VCF, --base VCF    Baseline vcf file
-c VCF, --comp VCF    Comparison vcf file
-i BED, --interval BED
                        Evaluation region file
-t INT, --thread_count INT
                        Number of threads
--base_out VCF        Annotated baseline vcf file
--comp_out VCF        Annotated comparison vcf file
--maxdist INT         Maximum distance to cluster variants (default: 1000)
--minsize INT         Minimum size of variants to consider (default: 50)
--maxdiff FLOAT       Haplotype difference theshold (default: 0.2)
--metric STR          Distance metric (default: Levenshtein)


使用反馈

Hap-Eval 是一款新发布软件,功能在持续完善开发中。如果 遇到不能Hap-Eval不能适配的 VCF文件,可通过github或sentieon@insvast.com及时反馈。

相关文章
|
5月前
|
UED
评估数据集CGoDial问题之主流生成伪OOD样本的问题如何解决
评估数据集CGoDial问题之主流生成伪OOD样本的问题如何解决
|
6月前
|
机器学习/深度学习 存储 数据可视化
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
196 2
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
496 1
|
8月前
|
运维 数据可视化 测试技术
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
393 2
|
机器学习/深度学习 索引 Python
python机器学习classification_report()函数 输出模型评估报告
python机器学习classification_report()函数 输出模型评估报告
2077 0
python机器学习classification_report()函数 输出模型评估报告
|
数据挖掘 数据中心
Hap-eval:Sentieon开源的多测序平台SV精度评估工具
Hap-eval:Sentieon开源的多测序平台SV精度评估工具
99 0
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现
Sentieon | 应用教程: TNscope®使用机器学习模型进行有匹配正常样本的体细胞变异发现
134 0
|
传感器 自动驾驶 测试技术
Study | 激光雷达性能如何统一量化?标准化测试最新研究发布
Study | 激光雷达性能如何统一量化?标准化测试最新研究发布
165 0
|
机器学习/深度学习 编解码 算法
泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(一)
泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(一)
295 0
|
文件存储 计算机视觉
泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(二)
泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(二)
206 0