Linux 对比两个文本的交集和差集(comm)

简介:

介绍

comm命令可以对两个已排序好的文本的内容进行交集和差集的对比,记住必须是已排序过的文件;可以使用sort命令对没有排序的文件进行排序,comm命令在对比结果中会产生三列分别是:在A中不在B中的内容,在B中不在A中的内容,AB的交集的内容。

 

 

事例

复制代码
[root@localhost test]# cat a
3 c
2 b
1 a

[root@localhost test]# cat b
2 b
3 c
4 d
复制代码

其中文件a不是倒序的文件,看看直接拿来对比会出现什么问题。

复制代码
[root@localhost test]# comm a b
    2 b
        3 c
comm: file 1 is not in sorted order
2 b
1 a

    4 d
复制代码

对比结果出现了问题提示文件1不是已排序的文件。

1.对文件进行排序

[root@localhost test]# sort a -o a
[root@localhost test]# cat a
1 a
2 b
3 c

2.对比文件

[root@localhost test]# comm a b
1 a
        2 b
        3 c
    4 d

第一列:在a文件中不在b文件中的内容

第二列:在b文件中不在a文件中的内容

第三列:a文件和b文件的交集

comm命令参数

-1:不显示第一列

-2:不显示第二列

-3:不显示第三列

复制代码
[root@localhost test]# comm a b -1
    2 b
    3 c
4 d
[root@localhost test]# comm a b -2
1 a
    2 b
    3 c
[root@localhost test]# comm a b -3
1 a
    4 d
[root@localhost test]# comm a b -12
2 b
3 c
复制代码

其它的一些特殊处理方法

复制代码
[root@localhost test]# comm a b -3
1 a
    4 d
[root@localhost test]# comm a b -3 | sed 's/^\t//'
1 a
4 d
复制代码

可以使用sed命令将开头的制表符(tab)替换掉,s:替换的意思,^:以什么开头,\t:制表符,//:空

总结

 

 

 

 


本文转自pursuer.chen(陈敏华)博客园博客,原文链接:http://www.cnblogs.com/chenmh/p/5531149.html,如需转载请自行联系原作者

目录
相关文章
|
1月前
|
存储 Shell Linux
【Shell 命令集合 文档编辑】Linux 文本统计 wc命令使用指南
【Shell 命令集合 文档编辑】Linux 文本统计 wc命令使用指南
60 0
|
10天前
|
Linux
使用Linux命令`comm`进行文件比较
`comm`命令在Linux中用于比较两个已排序文件的差异和共同点。基本语法是`comm [OPTION]... FILE1 FILE2`。它输出三列:公共行、仅在第一个文件中的行和仅在第二个文件中的行。选项如`-1`, `-2`, `-3`用于隐藏相应列。注意,输入文件必须排序,且`comm`不考虑行内空白差异。此命令在文本处理和数据分析中非常有用。
|
10天前
|
监控 Unix Linux
windows和linux实时监控文本内容的命令
windows和linux实时监控文本内容的命令
22 1
|
10天前
|
数据挖掘 Unix Linux
探索Linux中的强大文本处理工具——dgawk
dgawk,GNU awk的增强版,是一款强大的Linux文本处理工具,擅长模式扫描和数据提取。它提供复杂文本分析、易用性、可定制脚本及高效处理大文件的能力。基本语法为`dgawk 'pattern { action }' file`。通过打印、模式匹配、字段操作、BEGIN/END块及自定义函数等功能,用户能高效处理文本数据。掌握dgawk能提升文本分析效率,对系统管理员和数据分析师尤其有用。
|
10天前
|
Linux
探索 Linux 中的 `bzmore` 命令:一个方便的文本查看工具
探索 Linux 中的 `bzmore` 命令:一个方便的文本查看工具
|
1月前
|
Linux 开发工具 Perl
|
1月前
|
Linux Shell 开发工具
【Linux】:文本编辑与输出命令 轻松上手nano、echo和cat
【Linux】:文本编辑与输出命令 轻松上手nano、echo和cat
33 0
|
1月前
|
Rust 监控 安全
【专栏】`ripgrep`(rg)是Linux下快速、内存高效的文本搜索工具,用Rust编写,支持PCRE2正则表达式
【4月更文挑战第28天】`ripgrep`(rg)是Linux下快速、内存高效的文本搜索工具,用Rust编写,支持PCRE2正则表达式。相比`grep`,它在处理大文件和复杂模式时更具优势。安装`rg`可通过软件包管理器,如在Debian系系统中使用`sudo apt install ripgrep`。基本用法包括简单搜索、递归搜索、忽略大小写、显示行号等。高级功能包括固定字符串搜索、多文件匹配、并行搜索、排除选项和区域搜索。适用于日志分析、代码审查等场景,是提升工作效率的利器。
|
1月前
|
算法 Shell Linux
【Shell 命令集合 文档编辑 】Linux 文本搜索 look 命令使用指南
【Shell 命令集合 文档编辑 】Linux 文本搜索 look 命令使用指南
30 0
|
1月前
|
算法 Shell Linux
【Shell 命令集合 文档编辑】Linux 文本搜索工具 grep命令使用指南
【Shell 命令集合 文档编辑】Linux 文本搜索工具 grep命令使用指南
38 4