《R语言数据分析》——3.4 汇总函数

简介:

本节书摘来自华章出版社《R语言数据分析》一书中的第3章,第3.4节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 汇总函数

正如我们之前讨论过的一样,所有聚集函数都能对数据子集应用任意合法的R函数。一些R开发包为用户提供了非常方便的实现,而有少部分函数也确实要求读者要理解整个开发包的内容、特定的语法格式以及参数调优方法。

以上这些内容更深入的讨论,请参考本书第4章,以及后面的附录部分。

现在,我们将专注于简单的汇总函数,这些内容在一般的数据分析对象中应用非常普遍,例如,计算每个分组的案例数目。下面的样例也会对本章介绍的替代方法的差异进行特别说明。

统计子分组样例数

现在,让我们再把目光移向plyr、dplyr和data.table,读者应该已经掌握了构建aggregate和tapply函数的方法。有了前面的实践基础,接下来的任务看起来相当容易:这次不需要调用mean函数,而是使用length函数来返回Diverted列元素个数:

QQ_20170525134837

现在我们已经清楚周六从休斯顿出发的航班相对较少,那么我们真的有必要对这样一个简单的问题给出这样的回答?另外,我们还需要给样例个数变量进行命名吗?结果是已知的:

QQ_20170525134841
QQ_20170525134847

简而言之,不必从data.frame选择一个变量来获取它的长度,因为查询数据子集的行数更简单也更快。

当然,我们还可以找到更简单和更快的方法来获得同样的结果。也许,读者们早已想到要使用基本的table函数来执行这样一个简单的任务:

QQ_20170525134853

使用这个方法唯一的问题就是我们还需要对结果进行转换,例如大多数情况下是转换成data.frame。plyr包也早已实现了一个辅助函数来完成这个任务,函数的名字非常直观:

QQ_20170525134858

我们在结束的时候给出了一些非常简单的数据统计样例,不过仍有必要介绍如何使用dplyr对表格进行汇总。如果读者仅仅想修改之前dplyr命令,马上就会发现我们前面在plyr包中改变length或nrow函数的方法在这里行不通。StackOverf?low给出的一些说明指出我们需要使用一个名为n的辅助函数:

QQ_20170525134903

不过,老实说,我们真的有必要使用这样一种相对复杂的方法吗?如果读者们还记得hflights_DayOfWeek的结构,就马上会想到另外一种查询航班数的更简单和更快的方法:

QQ_20170525134907

为了确保我们还没忘记data.table的特定(美观的)语法,我们可以使用另外一个辅助函数来计算结果:

QQ_20170525134910

相关文章
|
7月前
|
数据挖掘
第6章 数据分析——6.3 函数的极限
第6章 数据分析——6.3 函数的极限
第6章 数据分析——6.3 函数的极限
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
130 1
|
2月前
|
算法 数据挖掘
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
41 1
|
6天前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
15 0
|
7天前
R语言Copula函数股市相关性建模:模拟Random Walk(随机游走)
R语言Copula函数股市相关性建模:模拟Random Walk(随机游走)
14 0
|
7天前
|
数据可视化
R语言最优化问题中的共轭函数
R语言最优化问题中的共轭函数
|
7天前
R语言蒙特卡洛计算和快速傅立叶变换计算矩生成函数
R语言蒙特卡洛计算和快速傅立叶变换计算矩生成函数
|
1月前
|
机器学习/深度学习 数据可视化 算法
从零到精通:学习这些R语言必学包成为数据分析高手!
从零到精通:学习这些R语言必学包成为数据分析高手!
38 0
|
5月前
|
数据挖掘
r语言数据分析画数据相关性图热力图
r语言数据分析画数据相关性图热力图
97 1
|
7月前
|
数据挖掘 Serverless
第6章 数据分析——6.4 函数数值积分
第6章 数据分析——6.4 函数数值积分

热门文章

最新文章