全网最快入门———R语言机器学习11

2022-10-26 482

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R 语言是为数学研究工作者设计的一种数学编程语言，主要用于统计分析、绘图、数据挖掘。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

R 语言是为数学研究工作者设计的一种数学编程语言，主要用于统计分析、绘图、数据挖掘。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

下面对R语言中频数统计函数解释

函数介绍——频数统计函数

频数在数据分析中是非常重要的一个概念，因为经常需要进行分组统计，比较不同组之间的差异，这些都要涉及到频数的统计。因子是专门用来进行分组的，有因子才能分组，分组之后才能进行频数统计。

首先介绍一下R如何对数据进行分组：

如果一个数据本身就是因子，那么直接就可以进行分组，例如mtcars数据集，里面的“cyl”这一列数据直接就可以作为因子，依据气缸数的不同来进行分组。

用as.factor()函数将这列转换为因子数据：

cylfactors<-as.factor(mtcars$cyl)

然后可以使用split()函数对数据进行分组：

myvars<-dplyr::mutate(myvars,cylfactors1=cylfactors)
split(myvars,myvars$cylfactors1)

还可以使用cut()函数（如果没有明显的分类），cut可以对连续的数据进行切割，使用cut()函数对“mpg”这列进行分割，根据10-50切成10份，就是以步长为10，每十下一切：

cut(myvars$mpg,c(seq(10,50,10)))

此处seq()函数的选项参数是：seq(from=，to=，by=组距)

在分组之后，就可以用table()函数进行频数的统计，table()函数可以计算频数表。

table()函数的使用比较简单：

table(myvars$cylfactors1)

cut()函数的结果也可以使用table()来统计：

table(cut(myvars$mpg,c(seq(10,50,10))))

以上就是频数统计的做法

用频数除以总数就是频率值，R中可以直接使用prop.table()函数计算频率值：

prop.table(table(myvars$cylfactors1))

频率值*100就是百分比的结果。

那么二维的数据框如何进行频率统计呢？

可以使用table()或者是as.table()函数，选项参数输入两个因子就可以计算二维数据的频率了。

这里我们以vcd包中的风湿病数据集（arthritis）进行示范。

Arthritis数据集中的“treatment”、“sex”以及“improved”列都可以作为因子数据，因为它们是类型量，我们取两个作统计：

table(Arthritis$Treatment,Arthritis$Improved)

返回的结果是一个二维的列联表，横向是安慰剂组与治疗组的区分，每一列分别是“没有效果”、“有一些效果”、“很有效果”的区分：

如果变量太多，我们也可以先使用with()或者是attach()函数先加载数据：

with(data=Arthritis,table(Treatment,Improved))

这样就不用反复的书写变量名称

处理二维列联表还可以使用xtabs()函数，这个函数的好处是它的选项参数使用的是formula参数，这样就可以根据需要写成多种公式。

同样是“treatment”以及“improved”列，使用xtabs()函数计算如下：

xtabs(~Treatment+Improved,data=Arthritis)

formula参数是可以省略的，结果和with()函数的一致

对于二维列联表我们还可以使用margin.table()和prop.table()函数分别计算边际频数与比例（边际频率），边际频数的意思就是单独按照行或者列的数据进行处理。

我们将xtabs()的结果保存到变量x中，再使用margin.table()函数统计一下x:

x<-xtabs(~Treatment+Improved,data=Arthritis)
margin.table(x)

返回值只有一个，代表返回的是所有的结果，这里需要给定一个边际值，1或者2,1代表行，2代表列：

margin.table(x,1)

使用prop.table()函数计算比例（边际频率）：

prop.table(x,1)

从边际和比例的计算结果可以看出，有治疗组有51%的比例是效果显著的，比边际频数41要大，说明药物是有用的。

再将margin.table()参数换成2，则是按列进行统计

margin.table(x,2)

addmargin()函数可以直接将边际的和添加到频数表中

addmargins(x)

这个函数也可单独计算行、列

addmargins(x,1)

addmargins(x,2)

我们也可以计算三维的列联表，加多一个参数就可以：

xtabs(~Treatment+Improved+Sex,data=Arthritis)

结果看起来有点乱，这时候我们可以使用ftable()函数，它能将结果转换为一个平铺式的列联表

y<-xtabs(~Treatment+Improved+Sex,data=Arthritis)
ftable(y)

全网最快入门———R语言机器学习11

函数介绍——频数统计函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

全网最快入门———R语言机器学习11

函数介绍——频数统计函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景