使用purge_haplogs处理基因组杂合区域

简介: 基因组某些区域可能有着比较高的杂合度,这会导致基因组该区域的两个单倍型被分别组装成primary contig, 而不是一个为primary contig, 另一个是associated haplotig. 如果下游分析主要关注于单倍型,这就会导致一些问题。

基因组某些区域可能有着比较高的杂合度,这会导致基因组该区域的两个单倍型被分别组装成primary contig, 而不是一个为primary contig, 另一个是associated haplotig. 如果下游分析主要关注于单倍型,这就会导致一些问题。

那么有没有解决方案呢?其实也很好办,就是找到相似度很高的contig,将他们拆分。 purge_haplogs根据minimap2的比对结果,通过分析比对read的覆盖度决定谁去谁留。该工具适用于单倍型组装软件,例如 Canu, FALCON或 FALCON-Unzip primary contigs, 或者是分相后的二倍体组装(Falcon-Unzip primary contigs + haplotigs 。

软件安装

purge_haplotigs依赖软件比较多,手动安装会很麻烦,但是他可以直接用bioconda装

conda create -n purge_haplotigs_env
conda activate purge_haplotigs_env
conda install purge_haplotigs

安装完成后需要一步测试

purge_haplotigs test

简明教程

数据准备。 需要下载的数据集分为两个部分,一个是FALCON-Unzip后的primary contig 和 halplotigs. 另一个则是已经比完后的BAM文件

mkdir purge_haplotigs_tutorial
cd purge_haplotigs_tutorial
wget https://zenodo.org/record/841398/files/cns_h_ctg.fasta
wget https://zenodo.org/record/841398/files/cns_p_ctg.aligned.sd.bam # 1.7G
wget https://zenodo.org/record/841398/files/cns_p_ctg.aligned.sd.bam.bai 
 wget https://zenodo.org/record/841398/files/cns_p_ctg.fasta
wget https://zenodo.org/record/841398/files/cns_p_ctg.fasta.fai

当然我们不可能直接就拿到比对好的BAM文件,我们一般是有组装后的基因组以及用于组装的subread,假设这两个文件命名为, genome.fa 和 subreads.fasta.gz.

minimap2 -ax map-pb genome.fa subreads.fasta.gz \
    | samtools view -hF 256 - \
    | samtools sort -@ 8 -m 1G -o aligned.bam -T tmp.ali

如果你有二代测序数据,也可以用BWA-MEM进行比对得到BAM文件。

第一步:使用purge_haplotigs readhist从BAM中统计read深度,绘制柱状图。

samtools mpileup -r "000005F|quiver" -f cns_p_ctg.fasta cns_p_ctg.aligned.sd.bam

也就是下图,你能明显的看到图中有两个峰,一个是单倍型的覆盖度,另一个二倍型的覆盖度,

img_33ea28b3f2acdf0bf04f2807deab56e8.png
高杂合基因组read-depth histogram

你可能还想知道高纯合基因组是什么样的效果,我也找了一个纯合的物种做了也做了read-depth 柱状图,

img_2e9837fe80c993532740cd0b64e912c3.png
纯合基因组read-depth histogram

之后你需要根据read-depth 柱状图 确定这两个峰的位置用于下一步。下面是两个例子。对于我们则是,20,65,190.

img_122689ec21fb1e1efefecf537e81fb13.png
两个例子

第二步: 根据read-depth信息选择阈值。

purge_haplotigs  contigcov  -i cns_p_ctg.aligned.sd.bam.gencov  -o coverage_stats.csv  -l 20  -m 75  -h 190

这一步生成的文件是"coverage_stats.csv"

第三步:区分haplotigs.

purge_haplotigs purge  -g cns_p_ctg.fasta  -c coverage_stats.csv  -b cns_p_ctg.aligned.sd.bam  -t 4  -a 60

这一步会得到如下文件

  • curated.artefacts.fasta:无用的contig,也就是没有足够覆盖度的contig.
  • curated.fasta:新的单倍型组装
  • curated.haplotigs.fasta:从原本组装分出来的haplotigs
  • curated.reassignments.tsv: 单倍型的分配信息
  • curated.contig_associations.log: 运行日志, 下面是其中一个记录,表示000004F_004和000004F_027是000004F_017的HAPLOTIG, 而000004F_017和000004F_013又是000004F,的HAPLOTIG。
000004F,PRIMARY -> 000004F_013,HAPLOTIG
                -> 000004F_017,HAPLOTIG 
                                        -> 000004F_004,HAPLOTIG
                                        -> 000004F_027,HAPLOTIG

由于我们用的是单倍型组装primary contigs而不是二倍体组装的parimary + haplotigs, 因此我们需要将FALCON_Unzip的haplotgi合并到重新分配的haplotigs中,这样子我们依旧拥有二倍体组装结果

cat cns_h_ctg.fasta >> curated.haplotigs.fasta
目录
相关文章
|
7月前
|
定位技术
GEE(CCDC-3)——根据CCDC segment分割后的影像进行地类变化统计和绘制土地覆被变化地图
GEE(CCDC-3)——根据CCDC segment分割后的影像进行地类变化统计和绘制土地覆被变化地图
213 0
|
1月前
|
编译器 图形学 开发者
shaderlab 关键点记录
ShaderLab 是 Unity 中创建和管理着色器的核心工具。通过理解其基本结构、常用属性和关键技术,开发者可以创建出各种复杂的图形效果。从基础的颜色和纹理处理,到高级的光照和多通道渲染,ShaderLab 提供了强大的功能和灵活性。希望本文记录的关键点能帮助您更好地掌握 ShaderLab,提高图形编程的效率和效果。
31 2
|
1月前
|
Oracle 关系型数据库 数据库
flashback实现数据快速复原
【11月更文挑战第1天】Flashback 技术是 Oracle 数据库提供的一种数据恢复机制,允许用户快速将数据库对象恢复到过去某个时间点或系统变更号(SCN)的状态。主要功能包括 Flashback Table(表级恢复)、Flashback Query(查询历史数据)和 Flashback Database(数据库级恢复)。通过这些功能,用户可以在不使用传统备份恢复方法的情况下,高效地恢复数据。例如,使用 `FLASHBACK TABLE` 语句可以将表恢复到指定时间点,而 `FLASHBACK QUERY` 则允许查询历史数据。
|
6月前
|
Perl
技术笔记:samtools统计重测序数据深度depth、depth
技术笔记:samtools统计重测序数据深度depth、depth
296 0
|
7月前
|
存储 数据可视化 数据挖掘
单细胞分析(Signac): PBMC scATAC-seq 基因组区域可视化
单细胞分析(Signac): PBMC scATAC-seq 基因组区域可视化
54 0
|
7月前
|
计算机视觉 异构计算 Python
YOLOv8改进 | 进阶实战篇 | 利用YOLOv8进行视频划定区域目标统计计数
YOLOv8改进 | 进阶实战篇 | 利用YOLOv8进行视频划定区域目标统计计数
360 0
|
7月前
|
人工智能
GEE数据的白天day/夜晚night LST数据按照QC掩膜后的结果差异明显
GEE数据的白天day/夜晚night LST数据按照QC掩膜后的结果差异明显
79 0
|
编解码 Python
python--海温、OLR数据分布做显著性检验,绘制空间分布并打点
使用python对海洋气象数据做显著性检验,并绘制空间pattern
python--海温、OLR数据分布做显著性检验,绘制空间分布并打点
|
存储 算法 Linux
算法丨根据基因型VCF文件自动识别变异位点并生成序列fasta文件,基于R语言tidyverse
算法丨根据基因型VCF文件自动识别变异位点并生成序列fasta文件,基于R语言tidyverse
|
数据挖掘
ENVI:分类后处理_小斑块去除_Majority/Minority处理、聚类处理、过滤处理等
ENVI:分类后处理_小斑块去除_Majority/Minority处理、聚类处理、过滤处理等
1052 0