使用Pilon对基因组进行polish

简介: 软件安装官方提供了编译好的jar包,方便使用wget https://github.com/broadinstitute/pilon/releases/download/v1.22/pilon-1.22.jarjava -Xmx16G -jar pilon-1.22.jar如果要顺利运行程序,要求JAVA > 1.7, 以及根据基因组大小而定的内存,一般而言是1M大小的基因对应1GB的内存。

软件安装

官方提供了编译好的jar包,方便使用

wget https://github.com/broadinstitute/pilon/releases/download/v1.22/pilon-1.22.jar
java -Xmx16G -jar pilon-1.22.jar

如果要顺利运行程序,要求JAVA > 1.7, 以及根据基因组大小而定的内存,一般而言是1M大小的基因对应1GB的内存。

总览

Pilon有如下作用

  1. 对初步组装进行polish
  2. 寻找同一物种不同株系间的变异,包括结构变异检测

他以FASTA和BAM文件作为输入,根据比对结果对输入的参考基因组进行提高,包括

  • 单碱基差异
  • 小的插入缺失(indels)
  • 较大的插入缺失或者block替换时间
  • 填充参考序列中的N
  • 找到局部的错误组装

最后它输出polish后的FASTA文件, 以及包含变异信息的VCF文件(可选)

分析流程

推荐使用PCR-free建库测序得到的Illumina paired-end数据,这样子避免了PCR-duplication,有效数据更多,也不需要在分析过程中标记重复。

下面步骤,假设你的组装文件为draft.fa, 质量控制后的illumina双端测序数据分别为read_1.fq.gzread_2.fq.gz

第一步:比对

bwa index -p index/draft draft.fa
bwa mem -t 20 index/draft read_1.fq.gz read_2.fq.gz | samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

第二步:标记重复(非PCR-free建库)

sambamba markdup -t 10 align.bam align_markdup.bam

第三步:过滤高质量比对的read

samtools view -@ 10 -q 30 align_markdup.bam > align_filter.bam
samtools index -@ 10 align_filter.bam

第三步:使用Pilon进行polish

MEMORY= #根据基因组大小而定
java -Xmx${MEMORY}G -jar pilon-1.22.jar --genome draft.fa --frags align_filer.bam \
    --fix snps,indels \
    --output pilon_polished --vcf &> pilon.log

一般Pilon迭代个2到3次就够了,所谓事不过三,过犹不及。

关于Pilon的一些参数说明:

  • --frags表示输入的是1kb以内的paired-end文库,--jumps表示 大于1k以上的mate pair文库, --bam则是让软件自己猜测
  • -vcf: 输出一个vcf文件,包含每个碱基的信息
  • --fix: Pilon将会处理的内容,基本上选snpsindels就够了
  • --variant: 启发式的变异检测,等价于--vcf --fix all,breaks, 如果是polish不要使用该选项
  • minmq: 用于Pilon堆叠的read最低比对质量,默认是0。

阅读日志输出

这个日志文件是标准输出而不是标准错误输出,不过保险起见用&>

最开始,Pilon会输出他的版本信息(如下示例),以及将会对基因组做的调整,

Pilon version 1.14 Sat Oct 31 14:30:00 2015 -0400
Genome: genome.fasta
Fixing snps, indels

其中Fixing后面的含义为:

  • "snps": 单碱基差异
  • "indels":小的indel的差异
  • "amb": 替换原有的N
  • "gaps": 填充基因组的gap
  • "local": 检测和修改错误组装
  • "all": 上述所有
  • "none": 不是上述的任何一种

接着Pilon会分染色体对BAM文件进行处理,根据BAM文件进行堆叠(pileup), 这个时候它会输出有效reads的深度,这里的有效reads包括未成对的read和正确成对的read。

Processing ctg1:1-5414473
frags align_mkdup.bam: coverage 19
Total Reads: 808985, Coverage: 19, minDepth: 5

从Pilon v1.4开始,Pilon还会输出基因组得到确认的碱基比例。

Confirmed 5403864 of 5414473 bases (99.80%)

后续是Pilon将会对原参考基因组做的一些调整的总体情况,如下表示纠正2个snp, 2个小的插入,4个缺失。

Corrected 2 snps; 0 ambiguous bases; corrected 2 small insertions totaling 12 bases, 4 small deletions totaling 6 bases

最后声明当前部分处理结束

Finished processing ctg1:1-5414473

如果,在--fix中选了gaps, 那么输出的内容还有如下内容。其中82048 -0 +276解释为在坐标82428处移除0个碱基,插入276个碱基。

# Attempting to fill gaps
fix gap: scaffold00001:82428-93547 82428 -0 +276 ClosedGap

参考资料

目录
相关文章
|
算法 关系型数据库 数据挖掘
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
本期重点关注Sentieon在甲状腺癌和CRISPR/Cas9技术中的应用
111 0
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
【论文速递】CVPR2022-Blind2Unblind:具有可见盲点的自监督图像去噪
【论文速递】CVPR2022-Blind2Unblind:具有可见盲点的自监督图像去噪
|
26天前
|
机器学习/深度学习 算法 数据挖掘
CVPR2024 医学图像相关论文
CVPR2024医学图像相关论文汇总,涵盖图像重建、超分、配准、分割、生成、分类、联邦学习、预训练模型、视觉-语言模型及计算病理等多个领域。包括多项创新技术,如QN-Mixer、PrPSeg、MAPSeg等,涉及多个开源项目和代码。持续更新中,欢迎关注。原始GIT地址:https://github.com/MedAIerHHL/CVPR-MIA
49 0
|
6月前
|
机器学习/深度学习 算法 搜索推荐
JCR一区7分线粒体基因,纯生信非肿瘤分型诊断模型
**摘要:** 一项研究在《翻译医学杂志》(IF 7.4)上发表,揭示了线粒体分子特性如何影响风湿性关节炎(RA)的治疗。通过对线粒体基因的分析,研究人员识别出RA患者的三个亚型,每个亚型具有独特的分子和细胞特征。亚型关联分析显示,亚型C对特定生物制剂如英夫利昔单抗、抗TNF药物、利妥昔单抗和甲氨蝶呤/阿巴西普的响应更强。利用机器学习建立了基于线粒体基因的诊断模型,该模型在区分RA亚型上表现优异,为患者分层和个性化治疗提供了新策略。
108 0
|
6月前
|
算法 搜索推荐 数据挖掘
Sentieon | 每周文献-Liquid Biopsy-第三十二期
Sentieon | 每周文献-Liquid Biopsy-第三十二期
45 1
|
6月前
|
算法 数据挖掘 芯片
Sentieon | 每周文献-Gene Editing-第二十八期
Sentieon | 每周文献-Gene Editing-第二十八期
37 0
|
6月前
|
NoSQL 数据挖掘 数据库
Sentieon | 每周文献-Long Read Sequencing-第二十九期
Sentieon | 每周文献-Long Read Sequencing-第二十九期
47 0
|
数据可视化 算法 搜索推荐
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
74 0
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
81 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(2)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
132 0