VCF文件修改染色体格式的方法

简介: VCF文件修改染色体格式的方法

VCF文件修改染色体格式

前言:在VCF文件中第一列是CHROME染色体信息,许多软件对染色体信息列具有比较特殊的格式要求,最近遇到一个问题,VCF文件中染色体格式是“chr1A”,而参考基因组的染色体格式是“Chr1A”,两者首字母大小写不一样,导致识别时出错。

今天分享一个shell脚本,快速将VCF文件中染色体信息列格式进行替换,当然其他信息也是同理,都可以修改。

检查命令行参数

#!/bin/bash
if [ $# -ne 1 ]; then
    echo "Usage: $0 input_file.vcf.gz"
    exit 1
fi
input_file="$1"

提取文件名和扩展名

filename=$(basename -- "$input_file")
extension="${filename##*.}"
filename="${filename%.*}"

解压缩vcf文件

gunzip "$input_file"

替换文件中的"chr"为"Chr"

sed -i 's/chr/Chr/g' "${filename}"

重新压缩文件

gzip "${filename}"
echo "Finished! Replaced 'chr' with 'Chr' in $input_file"

bcftools方法

另外用bcftools也能进行这项工作,首先用一个txt文档存储染色体对应信息,第一列是旧的格式,第二列是新的格式。步骤如下:

  • bcftools annotate
  • annotate rename-chrs
  • bgzip
bcftools annotate \
  --rename-chrs chr_name.txt \ 
  old.vcf.gz | \
  bgzip -c > \
  new.vcf.gz

今天的分享到这里结束,如果感觉有用欢迎转发分享哈~


END

© 素材来源于网络,侵权请联系后台删除

往期推荐:

文献丨群体转录组分析锁定关键转录因子

文献丨转录组RNA seq——青年阶段!

文献丨高通量表型组图像识别与GWAS

笔记丨ggplot2热图入门学习笔记

笔记丨PCA分析基本知识和数学原理

图书丨R语言、Python、Linux

超算丨数据分析时电脑配置不够用?试试

软件 | 如何进行基因家族分析?TBtools

服务器丨家用联想台式机重装Linux系统

转录组丨一套完整的操作流程案例

转录组丨利用limma包进行差异表达分析

Python笔记丨函数和类相关基础知识总结

Python笔记丨条件与循环流程知识总结

Python笔记丨数据类型基础与易错点总结

GWAS丨全基因组关联分析工具GAPIT最新版

数据可视化丨优雅的带显著性标记的箱线散点图

相关文章
|
4月前
|
数据格式 Python
【Python】已解决:Excel无法打开文件test.xIsx“,因为文件格式或文件扩展名无效。请确定文件未损坏,并且文件扩展名与文件的格式匹配。
【Python】已解决:Excel无法打开文件test.xIsx“,因为文件格式或文件扩展名无效。请确定文件未损坏,并且文件扩展名与文件的格式匹配。
326 0
|
1月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
20 1
|
1月前
|
安全 Windows
windows系统中,通过LOAD到入csv格式的文件到neo4j中,如何写文件路径
windows系统中,通过LOAD到入csv格式的文件到neo4j中,如何写文件路径
43 0
|
6月前
|
Java Apache
导出csv格式的文件
导出csv格式的文件
60 0
|
存储 Python
【可定制、转换时间戳】解析nc文件,并保存为csv文件
【可定制、转换时间戳】解析nc文件,并保存为csv文件
498 4
|
6月前
|
Windows
推荐:如何批量根据PDF文件名批量查找PDF文件,复制到指定地方保存,通过文件名批量复制文件,按照文件名批量复制文件,根据文件名批量提取文件
该文介绍了一个批量查找PDF文件(不限于找PDF)的工具,用于在多级文件夹中快速查找并复制特定文件。通过下载提供的软件,用户可以加载PDF库,输入文件名列表,设置操作参数(如保存路径、复制或删除)及搜索模式。软件能高效执行,例如在1.1秒内完成对数千文件中的37个目标文件的复制,显著提升了工作效率,避免了手动逐个查找和复制的繁琐。
616 0
|
6月前
|
存储 C语言 C++
C++遍历文件夹获取各文件名称并筛选指定格式类型的文件或具有特定名称的文件
C++遍历文件夹获取各文件名称并筛选指定格式类型的文件或具有特定名称的文件
134 1
ENVI_IDL:(批量处理)如何对HDF5文件进行GLT文件的创建并进行几何校正最终输出为IMG格式?
ENVI_IDL:(批量处理)如何对HDF5文件进行GLT文件的创建并进行几何校正最终输出为IMG格式?
182 0
|
存储 编解码
ENVI_IDL:读取OMI数据(HDF5)并输出为Geotiff文件+详细解析
ENVI_IDL:读取OMI数据(HDF5)并输出为Geotiff文件+详细解析
412 1
|
存储
ENVI_IDL: 创建HDF5文件并写入数据(以将Geotiff文件写入HDF文件为例) + 详细解析
ENVI_IDL: 创建HDF5文件并写入数据(以将Geotiff文件写入HDF文件为例) + 详细解析
193 0