开发者社区问答正文

shell 排序去重问题

用 shell 处理一个文本文件，内容如下：

fdf     284 
asd     112
adf     146
csb     513
dfg     576
asd     346
adf     263
csb     092
dfg     547
根据第一列去重，相同的保留第二列值最大的那个，结果数据应该是这样的：

fdf    284
asd    346
adf    263
csb    513
dfg    576

看了下 uniq 命令，好像不支持按字段去重。请问该如何去重呢？

展开

收起

a123456678 2016-06-20 11:10:47 2378 版权

1 条回答

写回答

取消提交回答

a123456678
方法一
cat data.txt | sort -rnk2 | awk '{if (!keys[$1]) print $0; keys[$1] = 1;}'
先按照第二列逆序排列，保证数字从大到小输出，然后再用 awk，只有第一列的字符串第一次出现才输出这个字符串，其他的丢弃，这样应该就可以解决问题了。但是这种方法可能会让 awk 占用很多的内存，文件过大的话有问题。
方法二
```
cat data.txt | sort -k1,1 | awk '{
    if (lastKey == $1) {
        if (lastValue < $2) {
            lastLine = $0;
            lastValue = int($2);
        }
    } else {
        if (lastLine) {
            print lastLine;
        }

        lastKey = $1;
        lastLine = $0;
        lastValue = int($2);
    }
} END {
    if (lastLine) {
        print lastLine;
    }
}'
```
这个方案是按照第一列排序，然后用 awk 筛选结果，筛选的过程相当于一个加强版的 uniq。这个方案在内存使用方面好了很多，不过代码量略多，不是很简洁。
2019-07-17 19:43:55

赞同展开评论

问答分类：

Shell

问答标签：

Shell排序 Shell去重 Shell排序去重

问答地址：

开发者社区 > 开发与运维 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

shell 排序去重问题

相关文章