vcftools --gzvcf input.vcf --chr n --recode – recode-INFO-all --stdout | gzip -c > output.vcf.gz
说明:
–gzvcf:处理压缩格式的vcf文件(可替换为–vcf)
–chr n:选择染色体n,例:–chr 1
–recode:重新编码为vcf文件,有过滤操作都要加上--recode
–recode-INFO-all:将输出的文件保存所有INFO信息
–stdout:标准输出,后接管道命令
–gzip -c:压缩
output.vcf.gz:将结果输出到output.vcf.gz
--max-missing
--max-missing的取值是0-1,为1时表示某个位点上所有的样本必须都有基因型,一个样本的基因型都不能缺。所以这个选项可以理解为:能分型的样本占总样本的比例至少为多少。
基本的思想就是利用数据流重定向,把原来输出到屏幕上的数据定向">"到文件里