GATK之SelectHeaders和RandomlySplitVariants

简介: 每天学点GATK,今天学习的是GATK变异位点操作工具(variant Manipulation Tools)。SelectHeaders功能: 从VCF文件中选择headers分类: 变异位点操作工具概要: VCF文件通常是拥有许多header信息的,但是实际上某些步骤不需要那么多信息,所以我们需要利用SelectHeaders进行选择。

每天学点GATK,今天学习的是GATK变异位点操作工具(variant Manipulation Tools)

SelectHeaders

功能: 从VCF文件中选择headers
分类: 变异位点操作工具
概要: VCF文件通常是拥有许多header信息的,但是实际上某些步骤不需要那么多信息,所以我们需要利用SelectHeaders进行选择。

输入: VCF文件
输出: 具有特定header的VCF文件

案例:
首先我们通过正则表达式看下有哪些headers,

$ bcftools view -h BC.bg_bwa_default.vcf | grep -E '^##[a-zA-Z]*?=' -o | uniq
##fileformat=
##FILTER=
##samtoolsVersion=
##samtoolsCommand=
##reference=
##contig=
##ALT=
##INFO=
##FORMAT=
##INFO=

然后只提取FILTER, FORMAT, and INFO headers

java -jar $gatk -T SelectHeaders\
    -R $reference -V BC.bg_bwa_default.vcf\
    -o output.vcf\
    -hn FILTER -hn FORMAT -hn INFO

参数解释:
-T: 要用的GATK工具
-R: 参考基因组
-V: 输入的vcf文件
-o: 输出的vcf文件
-hn/--header_name 需要包括在内的header

其他一些比较好用的参数
--header_expression/-he: 通过正则表达式的方法选择header,如 -he '.SnpEff.'就是选择所有的和snpEFF相似的headers
--exclude_header_name/-xl_hn: 剔除headers,也就是去掉那些不要的,流程的都是要的了。

:默认添加了如下过滤模块:

  • MalformedReadFilter
  • BadCigarFilter
  • UnmappedReadFilter
  • NotPrimaryAlignmentFilter
  • FailsVendorQualityCheckFilter
  • DuplicateReadFilter

RandomlySplitVariants

功能: 随机分隔variant文件
分类: 变异位点操作工具
概要: 就是读取一个vcf文件,然后随机分割成多个文件。吐槽:功能还真是简单,也搞不懂是用来干嘛的,以后用到的时候,添加吧。

输入: VCF文件
输出: 新的VCF文件

案例:

 java -jar GenomeAnalysisTK.jar \
   -T RandomlySplitVariants \
   -R reference.fasta \
   -V input.vcf \
   -o1 output_1.vcf \
   -o2 output_2.vcf

参数:
-o1/--out1 输出文件1
-o2/--out2 输出文件2

其他参数,如果希望输出不只是一个文件的话,则需要用到如下参数
--splitToManyFiles/-splitToMany : 默认是false, 参数为true,则输出多个文件,和-o1,-o2冲突
--numOfOutputVCFFiles/-N: 输出的文件数,默认是-1
另外--fractionToOut1/-fraction 可以决定第一个文件所在比例,

吐槽:这个命令运行时,一直出错,明明参数都一样,还报如下错

MESSAGE: Invalid command line: Argument out1 or out2 has a bad value: this value cannot be null (unprovided) unless you are using the splitToMany option

不过估计也用不到,就不和他计较了。

目录
相关文章
|
算法 关系型数据库 数据挖掘
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
本期重点关注Sentieon在甲状腺癌和CRISPR/Cas9技术中的应用
114 0
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
|
5月前
|
存储 算法 Shell
Sentieon | 应用教程:Sentieon分布模式
本文档描述了如何利用Sentieon®基因组学工具的分片能力将DNAseq®流程分布到多台服务器上;将其他流程(如TNseq®)进行分布遵循相同原则,因为所有Sentieon®基因组学工具都具有相同的内置分布式处理能力。这种分布的目标是为了减少流程的总运行时间,以更快地生成结果;然而,这种分布也会带来一些额外的开销,使计算成本增加。
70 2
|
7月前
|
机器学习/深度学习 SQL 数据可视化
单细胞分析(Signac): PBMC scATAC-seq 整合
单细胞分析(Signac): PBMC scATAC-seq 整合
78 0
|
7月前
|
算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第二十二期
Sentieon | 每周文献-Clinical Trial-第二十二期
43 2
|
7月前
|
算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第三十三期
Sentieon | 每周文献-Clinical Trial-第三十三期
42 0
|
7月前
|
算法 数据挖掘 芯片
Sentieon | 每周文献-Gene Editing-第二十八期
Sentieon | 每周文献-Gene Editing-第二十八期
42 0
|
7月前
|
算法 安全 数据挖掘
Sentieon | 每周文献-Tumor Sequencing-第十四期
Sentieon | 每周文献-Tumor Sequencing-第十四期
69 0
|
安全 算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第十一期
Sentieon | 每周文献-Clinical Trial-第十一期
70 1
|
数据可视化 算法 搜索推荐
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
78 0
Sentieon | 每周文献-Gene Editing(基因编辑)-第六期
|
数据挖掘 atlas 数据库
TCGA数据挖掘 | Xena - TCGA数据下载
TCGA数据挖掘 | Xena - TCGA数据下载
306 1