生信数据分析中基本Unix命令的运用

简介: 内容写的特别的“简洁”,存在疑惑的部分,可以讨论Unix基本命令能做的事学习了cat, head, tail, less, more,cut,sort,wc,uniq等基本命令后,如何使用这些命令对生物信息数据做简单的分析呢。

内容写的特别的“简洁”,存在疑惑的部分,可以讨论

Unix基本命令能做的事

学习了cat, head, tail, less, more,cut,sort,wc,uniq等基本命令后,如何使用这些命令对生物信息数据做简单的分析呢。大致可以完成以下任务:

  • 了解数据内容
  • 数据基本信息,例如文件大小,有多少行
  • 数据提取,排序和去重

所以本文假定你掌握了基本的Unix命令,对于不知道的命令会用man或者help去了解这些命令的作用。

数据准备

这里采用的实验数据是拟南芥的参考基因组及其注释文件,可在TAIR中下载,命令如下

wget http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_chromosome_files/TAIR10_chr_all.fas
wget http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

基本上从NCBI, EBI或其他数据库下载的数据都是以ASCII编码,可以用file命令检查。如果不是ASCII编码的,你需要使用hexdump或其他命令删除里面的特殊符号。

$ file TAIR10_GFF3_genes.gff
TAIR10_GFF3_genes.gff: ASCII text

了解数据内容

在拿到一个纯文本文件后,第一步肯定是想看下这个文件的大致内容。但是如果在文件特别大的时候直接用cat,结果就是瞬间爆炸,啥都看不清,比较好的命令就是head,tail,less.

1.查看文件前几行:head

head -n 5 TAIR10_chr_all.fas

2.查看文件后几行:tail

tail -n 5 TAIR10_chr_all.fas

3.逐页显示文本: less

less TAIR10_chr_all.fas

在less显示的界面中,你可以移动光标和寻找关键字

img_b8b400af2b4e2a55da0ba927a826e6bb.png
less

一些小技巧

1.显示文件前后几行

(head -n 2;tail -n 2) < TAIR10_chr_all.fas
# 可以上述操作到.bashrc文件中作为函数
function i() {
    (head -n 2; tail -n2 ) < "$1" | column -t
}
# 重新登录terminal或者source .bashrc就可以快捷使用了
i TAIR10_chr_all.fas

2.去除前面的comment line

tail -n + 2 xxxx.gff

3.调试管道命令(pipeline)

command1 | command 2 | less
command1 | command 2 | head -n

对于管道命令的输出结果,可以及时使用less或者head查看,如果有错误可以及时用ctrl+c停止操作

4.从头(de novo)管道创建

command1 | less
command1 | command2 | less
command1 | command2 | command3 | less

根据第3个小技巧,我们也可以在创建多个管道的时候逐渐增加,每一步可以及时调试

数据基本信息

查看文本数据大小

了解文本数据大小可以帮助我们简单判断处理结果,假设处理后的数据过大(好几十G)或过小(0 kb),与以往经验或期望不符,你就知道自己的处理方式存在问题了。使用ls就可以完成这个任务:

$ ls -lh TAIR10_chr_all.fa
-rw-r--r-- 1 1030 users 116M Aug  8  2016 TAIR10_chr_all.fa
-l 以长格式显示
-h 以G,M,K为单位来显示数据大小

文件的行数

通过wc可以统计文件有多少行。

$wc -l TAIR10_chr_all.fa
1514792 TAIR10_chr_all.fa

注意:实际上你可能不希望统计到commend line(以#开头的部分)以及无意义的空白行,所以你需要用grep -v排除那些无意义的行。

grep -v "#" target_file.txt | grep -v '^$' | wc -l

文件的列数

对于BED,VCF或者其他文件,你希望了解文件里包含有多少行,一个比较蠢的方法就是head -n 1然后一个一个数过去。一个比较好用的就是使用awk

数据提取,排序和去重

可以使用cut提取某个特定的列,例如我只需要GFF文件的第1,3,4,5行也就是chr,feature,start,end。

$ cut -f 1,3,4,5 TAIR10_GFF3_genes.gff | head
1       chromosome      1       30427671
1       gene    3631    5899
1       mRNA    3631    5899
1       protein 3760    5630
1       exon    3631    3913
1       five_prime_UTR  3631    3759
1       CDS     3760    3913
1       exon    3996    4276
1       CDS     3996    4276
1       exon    4486    4605
# 可以保存为新的文件
cut -f 1,3,4,5 TAIR10_GFF3_genes.gff | I() > part.txt

cut 可以用-d指定分隔符.

我们希望根据feature类型对part.txt文件进行进行排序

$ sort -k2,2 part.txt | head -n3
1       CDS     1000112 1000231
1       CDS     1000112 1000231
1       CDS     10003966        10004523

或者是先按照chr逆序然后根据第二行排序

$ sort -k1,1nr -k2,2 part.txt | head -n3
5       CDS     10001590        10001736
5       CDS     10004720        10004824
5       CDS     10004720        10004824

对于feature而言有许多相同部分,如果你想知道到底有哪几类的话,可以只提取feature,对其sort,然后统计每一个出现的次数

$ cut -f 3 TAIR10_GFF3_genes.gff | sort | uniq -c
 197160 CDS
      7 chromosome
 215909 exon
  34621 five_prime_UTR
  28775 gene
    180 miRNA
  35386 mRNA
   3911 mRNA_TE_gene
    480 ncRNA
  35386 protein
    924 pseudogene
   1274 pseudogenic_exon
    926 pseudogenic_transcript
     15 rRNA
     71 snoRNA
     13 snRNA
  30634 three_prime_UTR
   3903 transposable_element_gene
    689 tRNA

当然你还可以在这一步之后继续跟一个sort,找到出现最多的feature.

以上是实用一些Unix简单命令对纯文本格式数据的简单分析,之后会一篇Unix三大神器:grep,awk和sed在生物信息数据分析的应用。

目录
相关文章
|
10月前
|
存储 Shell Linux
【Shell 命令集合 网络通讯 】Linux 显示Unix-to-Unix Copy (UUCP) 系统的状态信息 uustat命令 使用指南
【Shell 命令集合 网络通讯 】Linux 显示Unix-to-Unix Copy (UUCP) 系统的状态信息 uustat命令 使用指南
107 0
|
8月前
|
数据挖掘 Linux 数据处理
Linux命令shuf详解:随机排序与数据分析的得力助手
`shuf`是Linux的命令行工具,用于随机排序和抽样数据。它能对文件或标准输入进行随机处理,适用于数据测试、播放列表和样本选择。主要参数包括:-e处理命令行输入,-i指定数字范围,-n选择行数,-o输出到文件,-r允许重复,-z用NULL分隔。结合其他命令使用能增强其功能。注意输出重定向和随机性的保证。是数据分析的有力助手。
|
7月前
|
Unix 数据处理 Perl
|
10月前
|
Unix Shell Linux
在Linux和类Unix系统中,Shell提供了多种命令用于用户和权限管理
在Linux和类Unix系统中,Shell提供了多种命令用于用户和权限管理
102 4
|
8月前
|
数据挖掘 大数据 Linux
探索Linux中的snice命令:一个虚构但启发性的数据分析工具
`snice`是一个想象中的Linux命令,用于低优先级地从大数据集中抽样数据。它结合`nice`和`sampling`,支持多种抽样策略,如随机和分层。参数包括指定样本数、策略、输入输出文件和进程优先级。示例:`snice -n 1000 -s random -i large_log.txt -o sample_log.txt`。使用时注意资源管理、数据完整性及权限,并与其它工具结合使用。虽然虚构,但体现了Linux工具在数据分析中的潜力。
|
9月前
|
Unix C语言
用C语言打造自己的Unix风格ls命令
用C语言打造自己的Unix风格ls命令
|
9月前
|
监控 Unix 程序员
Python 实现 Unix 'tail' 命令的完整解决方案
这是一个关于Python实现的 tail 命令库的摘要,最初由一个斯里兰卡程序员编写。代码中存在一个问题,在获取文件大小时可能抛出文件不存在的异常,已修复此 bug,添加了错误处理。修复后的代码包含一个名为 `wait_file_get_size` 的函数,用于安全地获取文件大小。此外,提供了类 `Tail`,用于监视文件变化,并可注册回调函数处理新行。
|
10月前
|
安全 Unix Linux
【专栏】`rmdir`命令在Linux和类Unix系统中用于删除空目录,不适用于非空目录
【4月更文挑战第28天】`rmdir`命令在Linux和类Unix系统中用于删除空目录,不适用于非空目录。基本语法为`rmdir [options] directory...`,常用选项包括`-p`(递归删除空父目录)和`--ignore-fail-on-non-empty`(忽略非空目录错误)。与`rm -r`相比,`rmdir`更安全,适用于知道目录为空的情况。在自动化脚本和清理构建目录等场景中,`rmdir`能有效管理空目录。使用时确保目录为空,避免误删,必要时结合`ls`和`sudo`检查或提升权限。
166 1
|
10月前
|
Linux 网络安全 数据处理
【专栏】Linux下的xxd命令是一个强大的二进制数据处理工具,用于十六进制转储和数据分析,我教你应该如何使用!
【4月更文挑战第28天】Linux下的xxd命令是一个强大的二进制数据处理工具,用于十六进制转储和数据分析。它可以显示文件的十六进制和ASCII表示,方便查看内容、分析数据结构和比较文件。xxd支持指定输出格式、写入文件、数据提取和转换等功能。在网络安全分析、程序调试和数据恢复等领域有广泛应用。通过掌握xxd,用户能更深入理解和处理二进制数据。
1006 0
|
10月前
|
网络协议 Unix Linux
在Unix/Linux shell中,与网络相关的命令
在Unix/Linux shell中,与网络相关的命令
91 2

热门文章

最新文章