awk分组求和分组统计次数

简介:

分组求和

以第一列 为变量名  第一列为变量,将相同第一列的第二列数据进行累加打印出和.

awk

以第一列和第二列为变量名, 将相同第一列、第二列的第三列数据进行累加打印出和

awk

如果第一列相同,则根据第一列来分组,分别打印第二列和第三列的和

awk

匹配

1、匹配交集项

如果file1、file2中,2个文件的第一列值相同,输出第2个文件的所有列

注意:数据量如果达到4Gb以上或者行数达到一亿级别,建议将file2进行split分割,否则就算是32G的内存的机器都会被吃掉;

awk

如果file1、file2中,2个文件的第一列第二列值相同,输出第2个文件的所有列

awk

2、匹配非交集项

针对2个文件的第一列做比较,输出:在file2中去除file1中第一列出现过的行

awk

第二种方法:

取最大值、最小值

1、针对(2列的文件)

第一列不变,取第二列分组最大值

第一列不变,取第二列分组最小值

2、针对单列的文件

求和、求平均值、求标准偏差

求和

求平均

求标准偏差

整合行和列

1、列换成行

如果第一列相同,将所有的第二列 第三列 都放到一行里面

awk

2、合并文件

2个文件,每个2列,将他们按照第一列相同的数,来合并成一个三列的文件,同时,将每个文件中针对第一列对应第二列中没有的数补0

注意点:文件2 一定要比文件1 的行数小

3、2个文件,每个3列,将他们按照第一列、第二列相同的数,来合并成一个4列的文件,同时,将每个文件中针对第一列、第二列对应第3列中没有的数补0

4、将列换成行,遇到空行,另起下一行

5、某列数字范围筛选

注意点:awk使用函数时,使用'"$a"'(先单引号,后双引号)

集合类

awk

1、集合交

2、集合差

3、集合全集去重

4、集合全集不去重

目录
相关文章
|
5月前
leetcode-6133:分组的最大数量
leetcode-6133:分组的最大数量
50 0
|
5月前
使用lamba中stream 进行分组统计
使用lamba中stream 进行分组统计
|
5月前
|
Java 测试技术
统计满足条件的子集个数
统计满足条件的子集个数
41 0
|
Python
将列表按照指定的规则排序并添加平均值
将列表按照指定的规则排序并添加平均值
66 1
|
C语言 C++
1684. 统计一致字符串的数目
给你一个由不同字符组成的字符串 allowed 和一个字符串数组 words 。如果一个字符串的每一个字符都在 allowed 中,就称这个字符串是 一致字符串 。 请你返回 words 数组中 一致字符串 的数目。
93 0
|
SQL 数据挖掘 关系型数据库
数据的分组与计算
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在数据集准备好之后,通常就是计算分组统计或生成透视表。pandas 提供了一个灵活高效的 groupby 功能,使我们可以高效地对数据集进行操作。 关系型数据库和 SQL 能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像 SQL 这样的查询语言所能执行的分组运算的种类很有限,而由于 pandas 强大的表达能力,我们可以执行复杂得多的分组运算。
128 0
|
Python
按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值
按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值
208 0
按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值
aggregate | 在R中进行分组统计
aggregate | 在R中进行分组统计
186 0