R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
下面对R语言中频数统计函数解释
函数介绍——频数统计函数
频数在数据分析中是非常重要的一个概念,因为经常需要进行分组统计,比较不同组之间的差异,这些都要涉及到频数的统计。因子是专门用来进行分组的,有因子才能分组,分组之后才能进行频数统计。
首先介绍一下R如何对数据进行分组:
如果一个数据本身就是因子,那么直接就可以进行分组,例如mtcars数据集,里面的“cyl”这一列数据直接就可以作为因子,依据气缸数的不同来进行分组。
用as.factor()函数将这列转换为因子数据:
cylfactors<-as.factor(mtcars$cyl)
然后可以使用split()函数对数据进行分组:
myvars<-dplyr::mutate(myvars,cylfactors1=cylfactors) split(myvars,myvars$cylfactors1)
还可以使用cut()函数(如果没有明显的分类),cut可以对连续的数据进行切割,使用cut()函数对“mpg”这列进行分割,根据10-50切成10份,就是以步长为10,每十下一切:
cut(myvars$mpg,c(seq(10,50,10)))
此处seq()函数的选项参数是:seq(from=,to=,by=组距)
在分组之后,就可以用table()函数进行频数的统计,table()函数可以计算频数表。
table()函数的使用比较简单:
table(myvars$cylfactors1)
cut()函数的结果也可以使用table()来统计:
table(cut(myvars$mpg,c(seq(10,50,10))))
以上就是频数统计的做法
用频数除以总数就是频率值,R中可以直接使用prop.table()函数计算频率值:
prop.table(table(myvars$cylfactors1))
频率值*100就是百分比的结果。
那么二维的数据框如何进行频率统计呢?
可以使用table()或者是as.table()函数,选项参数输入两个因子就可以计算二维数据的频率了。
这里我们以vcd包中的风湿病数据集(arthritis)进行示范。
Arthritis数据集中的“treatment”、“sex”以及“improved”列都可以作为因子数据,因为它们是类型量,我们取两个作统计:
table(Arthritis$Treatment,Arthritis$Improved)
返回的结果是一个二维的列联表,横向是安慰剂组与治疗组的区分,每一列分别是“没有效果”、“有一些效果”、“很有效果”的区分:
如果变量太多,我们也可以先使用with()或者是attach()函数先加载数据:
with(data=Arthritis,table(Treatment,Improved))
这样就不用反复的书写变量名称
处理二维列联表还可以使用xtabs()函数,这个函数的好处是它的选项参数使用的是formula参数,这样就可以根据需要写成多种公式。
同样是“treatment”以及“improved”列,使用xtabs()函数计算如下:
xtabs(~Treatment+Improved,data=Arthritis)
formula参数是可以省略的,结果和with()函数的一致
对于二维列联表我们还可以使用margin.table()和prop.table()函数分别计算边际频数与比例(边际频率),边际频数的意思就是单独按照行或者列的数据进行处理。
我们将xtabs()的结果保存到变量x中,再使用margin.table()函数统计一下x:
x<-xtabs(~Treatment+Improved,data=Arthritis) margin.table(x)
返回值只有一个,代表返回的是所有的结果,这里需要给定一个边际值,1或者2,1代表行,2代表列:
margin.table(x,1)
使用prop.table()函数计算比例(边际频率):
prop.table(x,1)
从边际和比例的计算结果可以看出,有治疗组有51%的比例是效果显著的,比边际频数41要大,说明药物是有用的。
再将margin.table()参数换成2,则是按列进行统计
margin.table(x,2)
addmargin()函数可以直接将边际的和添加到频数表中
addmargins(x)
这个函数也可单独计算行、列
addmargins(x,1)
addmargins(x,2)
我们也可以计算三维的列联表,加多一个参数就可以:
xtabs(~Treatment+Improved+Sex,data=Arthritis)
结果看起来有点乱,这时候我们可以使用ftable()函数,它能将结果转换为一个平铺式的列联表
y<-xtabs(~Treatment+Improved+Sex,data=Arthritis) ftable(y)