awk分组求和分组统计次数

简介:

分组求和

以第一列 为变量名  第一列为变量,将相同第一列的第二列数据进行累加打印出和.

awk

以第一列和第二列为变量名, 将相同第一列、第二列的第三列数据进行累加打印出和

awk

如果第一列相同,则根据第一列来分组,分别打印第二列和第三列的和

awk

匹配

1、匹配交集项

如果file1、file2中,2个文件的第一列值相同,输出第2个文件的所有列

注意:数据量如果达到4Gb以上或者行数达到一亿级别,建议将file2进行split分割,否则就算是32G的内存的机器都会被吃掉;

awk

如果file1、file2中,2个文件的第一列第二列值相同,输出第2个文件的所有列

awk

2、匹配非交集项

针对2个文件的第一列做比较,输出:在file2中去除file1中第一列出现过的行

awk

第二种方法:

取最大值、最小值

1、针对(2列的文件)

第一列不变,取第二列分组最大值

第一列不变,取第二列分组最小值

2、针对单列的文件

求和、求平均值、求标准偏差

求和

求平均

求标准偏差

整合行和列

1、列换成行

如果第一列相同,将所有的第二列 第三列 都放到一行里面

awk

2、合并文件

2个文件,每个2列,将他们按照第一列相同的数,来合并成一个三列的文件,同时,将每个文件中针对第一列对应第二列中没有的数补0

注意点:文件2 一定要比文件1 的行数小

3、2个文件,每个3列,将他们按照第一列、第二列相同的数,来合并成一个4列的文件,同时,将每个文件中针对第一列、第二列对应第3列中没有的数补0

4、将列换成行,遇到空行,另起下一行

5、某列数字范围筛选

注意点:awk使用函数时,使用'"$a"'(先单引号,后双引号)

集合类

awk

1、集合交

2、集合差

3、集合全集去重

4、集合全集不去重

目录
相关文章
|
存储 Windows
怎样格式化硬盘?四种硬盘格式化方法(含详细图文步骤)
这篇内容介绍了硬盘格式化的方法,包括为何要格式化硬盘(如快速清空数据、建立新分区、修复错误、改变文件系统类型)和四种格式化方式:1) 使用文件管理器,2) 通过磁盘管理器,3) 利用分区工具DiskGenius,4) 使用diskpart命令。在执行格式化前,务必备份重要数据,因为格式化会导致数据丢失。
如何调整 YOLOv3 的 NMS 参数以优化检测性能?
如何调整 YOLOv3 的 NMS 参数以优化检测性能?
|
测试技术 API
如何精确控制 asyncio 中并发运行的多个任务
如何精确控制 asyncio 中并发运行的多个任务
641 3
|
Java 应用服务中间件
tomcat7 与 tomcat8 加载 jar包的顺序
tomcat7 与 tomcat8 加载 jar包的顺序
442 0
|
C语言 索引 Perl
在awk中遍历数组
在awk中遍历数组
297 8
|
存储 安全 Java
Java并发基础:PriorityBlockingQueue全面解析!
PriorityBlockingQueue类能高效处理优先级任务,确保高优先级任务优先执行,它内部基于优先级堆实现,保证了元素的有序性,同时,作为BlockingQueue接口的实现,它提供了线程安全的队列操作,适用于多线程环境下的任务调度与资源管理,简洁而强大的API使得开发者能轻松应对复杂的并发场景。
394 3
Java并发基础:PriorityBlockingQueue全面解析!
|
JavaScript 定位技术
JS引用高德地图报错: AMap is not defined
JS引用高德地图报错: AMap is not defined
1166 0
|
缓存 Cloud Native Dubbo
5分钟完成 ZooKeeper 数据迁移
微服务引擎MSE面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持Nacos/ZooKeeper/Eureka)、云原生网关(原生支持Ingress/Envoy)、微服务治理(原生支持Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。
5分钟完成 ZooKeeper 数据迁移
|
Python
Pycharm配置运行参数
Pycharm配置运行参数
1821 0
Pycharm配置运行参数