Linux 对比两个文本的交集和差集(comm)

简介:

介绍

comm命令可以对两个已排序好的文本的内容进行交集和差集的对比,记住必须是已排序过的文件;可以使用sort命令对没有排序的文件进行排序,comm命令在对比结果中会产生三列分别是:在A中不在B中的内容,在B中不在A中的内容,AB的交集的内容。

 

 

事例

复制代码
[root@localhost test]# cat a
3 c
2 b
1 a

[root@localhost test]# cat b
2 b
3 c
4 d
复制代码

其中文件a不是倒序的文件,看看直接拿来对比会出现什么问题。

复制代码
[root@localhost test]# comm a b
    2 b
        3 c
comm: file 1 is not in sorted order
2 b
1 a

    4 d
复制代码

对比结果出现了问题提示文件1不是已排序的文件。

1.对文件进行排序

[root@localhost test]# sort a -o a
[root@localhost test]# cat a
1 a
2 b
3 c

2.对比文件

[root@localhost test]# comm a b
1 a
        2 b
        3 c
    4 d

第一列:在a文件中不在b文件中的内容

第二列:在b文件中不在a文件中的内容

第三列:a文件和b文件的交集

comm命令参数

-1:不显示第一列

-2:不显示第二列

-3:不显示第三列

复制代码
[root@localhost test]# comm a b -1
    2 b
    3 c
4 d
[root@localhost test]# comm a b -2
1 a
    2 b
    3 c
[root@localhost test]# comm a b -3
1 a
    4 d
[root@localhost test]# comm a b -12
2 b
3 c
复制代码

其它的一些特殊处理方法

复制代码
[root@localhost test]# comm a b -3
1 a
    4 d
[root@localhost test]# comm a b -3 | sed 's/^\t//'
1 a
4 d
复制代码

可以使用sed命令将开头的制表符(tab)替换掉,s:替换的意思,^:以什么开头,\t:制表符,//:空

总结

 

 

 

 


本文转自pursuer.chen(陈敏华)博客园博客,原文链接:http://www.cnblogs.com/chenmh/p/5531149.html,如需转载请自行联系原作者

目录
相关文章
|
6天前
|
Linux 开发工具
linux文本管理命令
本文档介绍了Linux系统中常用的文本处理命令,包括`echo`、`cat`、`head`、`tail`、`wc`、`less`、`grep`以及重定向符号的使用方法和练习题。此外,还详细讲解了VIM编辑器的特点、工作模式、常用快捷键和高级技巧,帮助用户高效地进行文本编辑和处理。
23 4
|
5月前
|
Linux
使用Linux命令`comm`进行文件比较
`comm`命令在Linux中用于比较两个已排序文件的差异和共同点。基本语法是`comm [OPTION]... FILE1 FILE2`。它输出三列:公共行、仅在第一个文件中的行和仅在第二个文件中的行。选项如`-1`, `-2`, `-3`用于隐藏相应列。注意,输入文件必须排序,且`comm`不考虑行内空白差异。此命令在文本处理和数据分析中非常有用。
|
2月前
|
Linux Shell
10-10|linux命令查询 关键字在文本中出现的行数
10-10|linux命令查询 关键字在文本中出现的行数
|
3月前
|
Linux
Linux 系列之 在一个文本中查找指定的数据
文章介绍了在Linux命令行中使用文本搜索功能快速查找指定内容的方法,并提供了按`n`键查找下一个匹配项的技巧。
Linux 系列之 在一个文本中查找指定的数据
|
3月前
|
Linux
在Linux中,如何使用grep命令搜索文本?
在Linux中,如何使用grep命令搜索文本?
|
4月前
|
Shell Linux C语言
|
5月前
|
数据挖掘 Linux Perl
Linux命令join:高效处理文本数据的利器
`join`是Linux文本处理的强兵,用于基于共同字段合并两个已排序文件。它按字典序比较字段,支持自定义分隔符,且能处理未匹配行。`-a`显示未匹配行,`-e`指定空字段替换值,`-j`设置共同字段,`-o`定制输出格式,`-t`定义字段分隔符。在数据分析时,务必先排序文件,并根据需求调整参数。可与`sort`、`cut`等命令配合使用。
|
4月前
|
存储 Unix Linux
探索Linux中的sed命令:强大的文本处理工具
`sed`是Linux/Unix的流编辑器,用于文本替换、删除、新增等操作,无需直接编辑文件。它逐行处理输入,存储在模式空间,执行脚本后输出。主要特点是非交互、支持正则表达式和简洁语法。示例:`sed 's/apple/orange/g' example.txt`替换文本,`/error/d`删除包含"error"的行,`a\---`在每行后加"---"。使用时注意备份、测试命令和理解正则表达式。
|
5月前
|
监控 Unix Linux
windows和linux实时监控文本内容的命令
windows和linux实时监控文本内容的命令
183 1
|
5月前
|
数据挖掘 Unix Linux
探索Linux中的强大文本处理工具——dgawk
dgawk,GNU awk的增强版,是一款强大的Linux文本处理工具,擅长模式扫描和数据提取。它提供复杂文本分析、易用性、可定制脚本及高效处理大文件的能力。基本语法为`dgawk 'pattern { action }' file`。通过打印、模式匹配、字段操作、BEGIN/END块及自定义函数等功能,用户能高效处理文本数据。掌握dgawk能提升文本分析效率,对系统管理员和数据分析师尤其有用。