linux sort/uniq 使用

简介:

来自:http://www.linuxde.net/2013/06/13941.html


通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用JAVA来处理磁盘上文件的合并,需要用多少行代码。

cat a b | sort | uniq > c   # c 是a和b的合集
cat a b | sort | uniq -d > c   # c 是a和b的交集
cat a b b | sort | uniq -u > c   # c 是a和b的不同

汇总一个文本内容里第三列数字的和(这个方法要比用Python来做快3倍并只需1/3的代码量):

awk ‘{ x += $3 } END { print x }’ myfile

如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:

find . -type f -ls

使用xargs命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用xargs echo。同样,-I{} 也非常有用。例子:

find . -name \*.py | xargs grep some_function
cat hosts | xargs -I{} ssh root@{} hostname

假设你有一个文本文件,比如一个web服务器日志,在某些行上有一些值,比如URL中的acct_id参数。如果你想统计每个acct_id的所有请求记录:

cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn

本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1218649

相关文章
|
3月前
|
Unix Linux
linux命令之uniq
linux命令之uniq
25 1
|
4月前
|
应用服务中间件 Linux Shell
Linux命令(84)之uniq
Linux命令(84)之uniq
29 1
|
4月前
|
Linux
Linux命令(80)之sort
Linux命令(80)之sort
29 1
|
Shell Linux
Linux中常用的文本处理命令(echo、sort、uniq、tr、cut、split、eval)(上)
1、echo命令——输出 echo 命令主要用来显示字符串信息。
320 0
|
1月前
|
搜索推荐 算法 Shell
【Shell 命令集合 文档编辑 】Linux 排序命令 sort命令使用指南
【Shell 命令集合 文档编辑 】Linux 排序命令 sort命令使用指南
29 0
|
3月前
|
Linux
linux命令之sort
linux命令之sort
29 2
|
6月前
|
缓存 负载均衡 算法
9.Linux文件管理命令---sort按顺序显示文件内容
9.Linux文件管理命令---sort按顺序显示文件内容
|
10月前
|
Linux
linux-cut/sort
linux-cut/sort
linux Command sort 排序
linux Command sort 排序