《数据科学:R语言实现》——3.9 排列数据

简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第3章,第3.9节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.9 排列数据

排列可以让我们在某种顺序下观察数据,以便更有效地分析数据。在数据库中,我们可以使用order by语句对指定的列进行数据排序。在R中,我们使用函数order和sort来对数据排序。
准备工作
按照3.3节“转换数据类型”教程,把导入数据的每个属性转换成合适的数据类型。同时按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。
实现步骤
screenshot
screenshot

运行原理
R提供了两种排列数据的方法:一个是sort,另一个是order。函数sort返回排序好的向量作为输出。在第1步中,我们设置了一个含有7个整数的整数向量,然后使用函数sort对向量排序,生成一个排序好的输出。经过排序的向量默认是按升序排列的。但是,我们可以把decreasing指定为TRUE改变序列顺序。另外,函数order返回一个排序索引向量作为输出。我们依然可以指定返回的索引是按升序还是按降序排列。
为了在向量中按照升序或者降序排列元素,我们可以使用函数sort。但是,要对某一列的数据排序,我们应该使用函数order。在我们例子中,我们首先拿到了salary属性中各元素的降序索引,然后获取了按照一个排序索引的salaries数据记录。最后,我们找出了按照薪水排列的salaries记录。除了按照一个属性排列数据记录,我们还可以按照多个属性排序记录。我们只需要在函数order中依次放置salary和from_date属性。
更多技能
我们还可以使用plyr中的函数arrange,按照升序的salary和降序的from_date排列薪水数据:
screenshot

相关文章
|
15小时前
|
机器学习/深度学习 算法
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
13 6
|
1天前
|
机器学习/深度学习 数据挖掘 数据建模
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
38 9
|
1天前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
35 18
|
1天前
|
机器学习/深度学习 数据可视化 算法
数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化
数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化
49 10
|
1天前
|
数据可视化 安全 数据挖掘
数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化
数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化
|
1天前
|
vr&ar Python
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据
|
2天前
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据-3
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据
14 1
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据-3
|
2天前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
33 1
|
3天前
|
vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-1
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
26 0
|
1天前
|
算法 vr&ar Python
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列

热门文章

最新文章