VET：一个基于R语言的VCF数据提取工具，支持按基因ID、物理位置、样品名称提取指定变异信息

2023-08-25 996

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： VET：一个基于R语言的VCF数据提取工具，支持按基因ID、物理位置、样品名称提取指定变异信息

VET：Vcf Export Tools

工具简介

VET是一个基于R语言开发的变异位点信息批量提取工具，主要功能是根据VCF数据集，按照基因ID、样品ID、变异位点ID等参数，实现批量提取，同时支持变异位点结构注释，一步搞定变异数据的快速提取。

########## WelCome to VCF Export Tools ###########
>>>>>>>>>>>>>>>> Design By BioNote <<<<<<<<<<<<<<<<<
可选参数：
[1]根据基因ID提取变异数据
[2]根据物理位置提取变异数据
[3]根据样品名称提取变异数据
[4]根据SNP名称提取变异数据
--------------------------------------------------
[INFO]第一个参数填选项，第二个参数填项目备注名称
[INFO]第三个参数选择是否过滤样本，默认为“N”
[INFO]第四个参数选择是否进行结构注释，默认为“N”
[INFO]运行方法 $ Rscript ./run.R 1 test Y Y
>>>>>>>>>>>>>>>> 程序版本：V 2.0.1 <<<<<<<<<<<<<<<<
##################################################

功能与应用

基因测序后经过上游分析得到的VCF文件储存了所有样本对应的所有变异信息，通常数据量非常大，在实际使用中需要根据情况对指定信息进行提取。目前已有vcftools或bcftools等工具能够实现上述操作，但是用的时候参数比较复杂，整个过程略显繁琐。

本工具集成了R、tidyverse、Python、vcftools、bcftools、snpEff等常用工具，开发便捷式流程实现批量操作。

主要应用场景是对大规模VCF原始数据集进行提取，支持多种个性化方式：

按基因ID提取指定基因内变异信息
按材料名称提取某些材料变异信息
按变异位点名称筛选指定变异信息
按照物理位置提取指定区段内数据

支持流式操作，提取后筛选指定样品并对每个变异位点进行结构注释（判断错义突变、移码突变等），最终将结果文件打包生成压缩包。

使用方法

第一步：输入待提取的信息
第二步：运行Run.R脚本
第三步：下载结果文件

可以批量操作，无需手写代码。

原理介绍

VCF是生信研究中储存基因变异信息的重要格式，通常经过测序上游分析后得到一份具有丰富信息量的vcf或者vcf.gz文件。

以“##”开头的行表示注释信息，一般记录了字段类型和历史命令，这部分相当于一个日志信息。剩下的数据部分类似一个表格，大体上每行是一个变异位点，每列是一个材料样本。

变异位点（简称SNP）是按照染色体上不同位置进行统计的，展示不同材料中在某个位置碱基差异。

按照突变的类型可以分为3种类型：

缺失：Del，某些碱基不见了
插入：Ins，新出现了某些碱基
替换：SNP，单核苷酸多态性变异

一般常见的VCF文件主要由上述信息组成，对于大规模测序得到的多个样品合并VCF文件，可能包含几千万行×几千列（亿级数据量）。

在实际进行分析时，可能只需要考虑某几个基因或者是一小段区间内的变异数据，因此需要对VCF文件进行提取，只取出想要的一小部分，这个过程涉及到Linux下不同软件的相互配合。

VET 源代码

首先，建立项目文件夹并生成以下结构：

Aug  9 16:30 00_scripts
Aug 17 15:24 01_INPUT_GeneID.txt
Aug 17 16:09 01_out_byGeneID
Aug  9 18:30 02_INPUT_Postion.txt
Aug 10 11:25 02_out_byPostion
Aug 10 11:02 03_INPUT_SampleName.txt
Aug  4 15:13 03_out_bySampleName
Aug  4 15:31 04_INPUT_SNP.txt
Aug  4 15:14 04_out_bySNP
Aug  6 11:34 05_INPUT_filevcf.txt
Aug  6 11:33 05_out_bySnpEff

程序初始化

下面的代码为程序初始化过程，将会加载tidyverse等软件包，并读取重要参数，完成后将获得输出提示。

#!/usr/local/bin/Rscript
# VCF Export Tools 基因型变异数据批量提取工具，快捷提取VCF文件
# 依赖软件：Python、bcftools、tidyverse、snpeff
suppressPackageStartupMessages(library("cli"))
suppressPackageStartupMessages(library("tidyverse"))
cli::cli_text("########## WelCome to VCF Export Tools ###########
 \n >>>>>>>>>>>>>>>> Design By Jewel <<<<<<<<<<<<<<<<<
 \n可选参数：
 \n\t[1]根据基因ID提取变异数据
 \n\t[2]根据物理位置提取变异数据
 \n\t[3]根据样品名称提取变异数据
 \n\t[4]根据SNP名称提取变异数据
 \n--------------------------------------------------
 \n[INFO]第一个参数填选项，第二个参数填项目备注名称
 \n[INFO]第三个参数选择是否过滤样本，Y为过滤指定样本
 \n[INFO]第四个参数为'Y'时将对vcf文件进行变异结构注释
 \n[INFO]例如 $ ./run.R 1 test Y Y
 \n>>>>>>>>>>>>>>>> 程序版本：V 2.0.1 <<<<<<<<<<<<<<<<
 \n ##################################################")
 args <- commandArgs(T)
if(length(args)!=4){stop("参数输入有误，请检查输入格式，示例“./Run.R 1 jobname Y/N Y/N")}
# CONFIG SETTING:
db_file <- "wgs_all.vcf.gz" # 设置数据库名称
db_name <- "WGS"
# 程序初始化，删除上次输出结果文件----------
OPT <- args[1] # 程序子选项
JOB <- args[2] # 项目备注信息
SAM <- args[3] # 是否过滤样本
EFF <- args[4] # 是否结构注释
print(str_c("INFO   当前选择的数据库为：",db_file))
print(str_c("INFO   当前项目名称为： ",OPT," <-> ",JOB))
print(str_c("INFO   是否对样品进行过滤（Y为过滤指定样本,否则不过滤）："),SAM)
print(str_c("INFO   是否对vcf进行结构变异注释（Y为进行注释,否则不注释）："),EFF)
system("rm -rf ./01_out_byGeneID/*")
system("rm -rf ./02_out_byPostion/*")
system("rm -rf ./03_out_bySampleName/*")
system("rm -rf ./04_out_bySNP/*")
system("rm -rf ./05_out_bySnpEff/*")
cli::cli_text("INFO   系统输出文件夹初始化完成")

根据基因ID提取变异信息

根据输入的参数进行判断，如果选项为1，则执行下面的步骤，主要调用Python程序进行信息检索，并由bcftools工具批量提取变异信息，若需要根据指定样品进行过滤，则利用view功能对样品进行筛选，最后生成结果压缩文件。

if (OPT == "1"){
  cli::cli_text("INFO   待提取的基因ID如下，将自动自取上下游3000bp内的变异数据")
  id <- read.table("./01_INPUT_GeneID.txt",header = F)
  print(id$V1)
  cli::cli_text("INFO   基因ID信息整理完毕，接下来开始检索物理区间")
  system("Rscript prefix_gene_filter.R ./01_INPUT_GeneID.txt")
  cli::cli_text("INFO   接下来执行Python脚本调用bcftools提取基因变异信息")
  system(str_c("python bcftools_view_filiter_Chr.py --input ./00_scripts/id.txt --vcf ./",
               db_file))
  cli::cli_text("INFO   提取完成，对结果进行打包压缩")
  if (SAM == "Y"){
    for (i in 1:nrow(id)){
      system(str_c("bcftools view --force-samples -S ",
                   "./03_INPUT_SampleName.txt ",
                   id$V1[i],".vcf.gz > ",
                   id$V1[i],".vcf"))
    }
    system("mv ./*vcf ./01_out_byGeneID/")
    system("rm -rf ./*vcf.gz")
    system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
                 "_LOTSample_Filter_ByGeneID",".tar.gz ./01_out_byGeneID/* ./Tips.pdf"))
  }else{
    system("mv ./T* ./01_out_byGeneID/")
    system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
                 "_AllSample_Filter_ByGeneID",".tar.gz ./01_out_byGeneID/* ./Tips.pdf"))
  }
  cli::cli_text("INFO   任务运行结束，请及时下载结果文件,下次运行前将清空结果文件")
}

根据物理位置提取变异信息

根据指定的物理区间判断染色体的和起止位置，并结果VCF文件筛选指定区间内的变异数据，采用bcftools的 filter功能进行实现，提取完成后进行打包压缩。

if (OPT == "2"){
  cli::cli_text("INFO   待提取物理区间如下，正在提取中......")
  region <- read.table("./02_INPUT_Postion.txt",header = F)
  for (i in 1:nrow(region)){
    print(str_c("Index: ",i,"   Region: ",region$V1[i],"   Info: ",region$V2[i]))
    system(str_c("bcftools filter ",db_file," --regions ",region$V1[i]," > ",region$V1[i],"_",region$V2[i],".vcf"))
    system("mv Chr* ./02_out_byPostion/")
    system("rename : _ ./02_out_byPostion/*")
    system("rename - _ ./02_out_byPostion/*")
  }
  cli::cli_text("INFO   提取完成，对结果进行打包压缩")
  system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
               "_AllSample_Filter_ByPositin",".tar.gz ./02_out_byPostion/* ./Tips.pdf"))
  cli::cli_text("INFO   任务运行结束，请及时下载结果文件,下次运行前将清空结果文件")
}

今天分享的内容就到这里，还有两个功能正在开发中，之后有时间再分享关于提取指定位点名称和结构注释的方法，目前这项工具还未完成，如需抢先体验请后台联系，后续将开源至Github，欢迎转发分享。

参考资料：

https://mp.weixin.qq.com/s/DdXyqiW7c7lCp4103flQZQ

END

笔记合集，点击直达

R语言笔记	Linux笔记	阅读笔记
转录组	Python	服务器

VET：一个基于R语言的VCF数据提取工具，支持按基因ID、物理位置、样品名称提取指定变异信息

VET：Vcf Export Tools

工具简介

功能与应用

使用方法

原理介绍

VET 源代码

程序初始化

根据基因ID提取变异信息

根据物理位置提取变异信息

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

VET：一个基于R语言的VCF数据提取工具，支持按基因ID、物理位置、样品名称提取指定变异信息

VET：Vcf Export Tools

工具简介

功能与应用

使用方法

原理介绍

VET 源代码

程序初始化

根据基因ID提取变异信息

根据物理位置提取变异信息

热门文章

最新文章

相关课程

相关电子书