awk分组求和分组统计次数

简介:

分组求和

以第一列 为变量名  第一列为变量,将相同第一列的第二列数据进行累加打印出和.

awk

以第一列和第二列为变量名, 将相同第一列、第二列的第三列数据进行累加打印出和

awk

如果第一列相同,则根据第一列来分组,分别打印第二列和第三列的和

awk

匹配

1、匹配交集项

如果file1、file2中,2个文件的第一列值相同,输出第2个文件的所有列

注意:数据量如果达到4Gb以上或者行数达到一亿级别,建议将file2进行split分割,否则就算是32G的内存的机器都会被吃掉;

awk

如果file1、file2中,2个文件的第一列第二列值相同,输出第2个文件的所有列

awk

2、匹配非交集项

针对2个文件的第一列做比较,输出:在file2中去除file1中第一列出现过的行

awk

第二种方法:

取最大值、最小值

1、针对(2列的文件)

第一列不变,取第二列分组最大值

第一列不变,取第二列分组最小值

2、针对单列的文件

求和、求平均值、求标准偏差

求和

求平均

求标准偏差

整合行和列

1、列换成行

如果第一列相同,将所有的第二列 第三列 都放到一行里面

awk

2、合并文件

2个文件,每个2列,将他们按照第一列相同的数,来合并成一个三列的文件,同时,将每个文件中针对第一列对应第二列中没有的数补0

注意点:文件2 一定要比文件1 的行数小

3、2个文件,每个3列,将他们按照第一列、第二列相同的数,来合并成一个4列的文件,同时,将每个文件中针对第一列、第二列对应第3列中没有的数补0

4、将列换成行,遇到空行,另起下一行

5、某列数字范围筛选

注意点:awk使用函数时,使用'"$a"'(先单引号,后双引号)

集合类

awk

1、集合交

2、集合差

3、集合全集去重

4、集合全集不去重

目录
相关文章
|
存储 Windows
怎样格式化硬盘?四种硬盘格式化方法(含详细图文步骤)
这篇内容介绍了硬盘格式化的方法,包括为何要格式化硬盘(如快速清空数据、建立新分区、修复错误、改变文件系统类型)和四种格式化方式:1) 使用文件管理器,2) 通过磁盘管理器,3) 利用分区工具DiskGenius,4) 使用diskpart命令。在执行格式化前,务必备份重要数据,因为格式化会导致数据丢失。
|
1月前
|
人工智能 运维 监控
2026年OpenClaw/Clawdbot必装10大Skills指南:从部署到技能精通
在AI Agent技术飞速迭代的2026年,OpenClaw(原Clawdbot)凭借轻量化部署、高自由度扩展的特性,成为个人与企业构建自动化工作流的核心工具。而真正决定OpenClaw能力上限的,并非基础模型本身,而是其开放的Skills(技能系统)——这一插件生态如同给AI助手装上“多功能工具包”,可扩展实时搜索、浏览器自动化、网页部署、性能检测等关键能力,让普通问答助手升级为能执行真实任务的智能工作系统。
5761 15
【推荐】排序模型的评价指标nDCG
nDCG(Normalized Discounted Cumulative Gain)归一化折损累计增益是一种用于评估排序模型性能的指标,它考虑了两个方面:排序的正确性和相关性的程度。
4477 0
|
存储 应用服务中间件 API
MinIO 参数解析与限制
MinIO 参数解析与限制 MinIO server 在默认情况下会将所有配置信息存到 ${HOME}/.minio/config.json 文件中。 以下部分提供每个字段的详细说明以及如何自定义它们。
6765 0
|
机器学习/深度学习 缓存 监控
linux查看CPU、内存、网络、磁盘IO命令
`Linux`系统中,使用`top`命令查看CPU状态,要查看CPU详细信息,可利用`cat /proc/cpuinfo`相关命令。`free`命令用于查看内存使用情况。网络相关命令包括`ifconfig`(查看网卡状态)、`ifdown/ifup`(禁用/启用网卡)、`netstat`(列出网络连接,如`-tuln`组合)以及`nslookup`、`ping`、`telnet`、`traceroute`等。磁盘IO方面,`iostat`(如`-k -p ALL`)显示磁盘IO统计,`iotop`(如`-o -d 1`)则用于查看磁盘IO瓶颈。
1476 10
|
1月前
|
存储 人工智能 缓存
2026年OpenClaw(原Clawdbot)一键部署+Skills能做什么?全场景应用解析
如果说OpenClaw与大模型的组合赋予了AI助理“智慧大脑”,那么Skills就是为其配备的“灵活双手”——通过各类功能插件,OpenClaw能突破纯语言交互的限制,实现网页操作、邮件管理、文件处理等具象化任务。2026年阿里云轻量应用服务器推出OpenClaw一键部署方案,大幅降低了入门门槛。本文将完整覆盖阿里云OpenClaw快速部署流程、默认Skills实战场景、新Skills安装配置及高级应用技巧,包含详细代码命令与操作步骤,帮助用户从零到一解锁OpenClaw的全量能力。
2049 8
如何调整 YOLOv3 的 NMS 参数以优化检测性能?
如何调整 YOLOv3 的 NMS 参数以优化检测性能?
|
9月前
|
机器学习/深度学习 存储 Prometheus
机器学习模型监控警报系统设计:Prometheus+Evidently 实战教程
本系统采用Prometheus与Evidently双引擎架构,实现从数据采集、智能分析到精准告警的全流程监控。通过时序数据与模型分析深度集成,支持数据漂移检测、性能评估及根因分析,结合Grafana可视化与Alertmanager智能路由,构建高可用、低延迟的监控体系,显著提升异常检测能力与系统稳定性。
487 9
|
人工智能 数据可视化 API
自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程
Auto-Deep-Research 是一款由香港大学开源的个人 AI 助理,基于模块化多 Agent 架构,专注于深度研究任务,兼容多种大语言模型,并提供一键启动和文件解析等强大功能。
1270 4
自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程