R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
这节课讲logistic回归
项目实操——logistic回归
当通过一系列连续型或类别型预测变量来预测而执行结果变量时,logistic回归时一个非常有用的工具。
导入数据集
这里我们以affair包中的数据为例来阐述logistics回归的过程:
先导入数据集,再使用summary()函数做一个简单的统计,之后使用table()函数统计一下出轨的频数,prop.table()函数统计一下频率:
data(Affairs,package="AER") summary(Affairs) table(Affairs$affairs) >prop.table(table(Affairs$affairs))
性别的频数:
prop.table(table(Affairs$gender))
Logistic回归需要结果是二值型的,所以我们将其转为二值型的结果,定义一个ynaffairs(年度出轨次数):
Affairs$ynaffairs[Affairs$affairs>0] <-1>Affairs$ynaffairs[Affairs$affairs==0] <-0
可以用过head()函数查看字段是否添加成功
接下来将这个变量转化为因子:
Affairs$ynaffairs<-factor(Affairs$ynaffairs,levels=c(0,1),labels=c("NO","Yes"))
现在ynaffairs就属于二值型的变量,可以进行logistic回归分析了(这一步去其实是把离散值转化为二项分布)
筛选变量
使用glm()函数进行logistic回归分析(这个数据集的变量比较多,先使用attach()函数将数据集写入内存,使用R的自动补齐功能):
fit<-glm(ynaffairs~gender+age+yearsmarried+children+religiousness+education+occupation+rating,data=Affairs,family=binomial(link=logit)) summary(fit)
根据回归结果,将不显著的变量去除,重新拟合一次:
>fit1<-glm(ynaffairs~age+yearsmarried+religiousness+rating,data=Affairs,family=binomial(link=logit))
由于两个回归结果是嵌套关系,可以使用anova对两者进行方差分析,对于广义线性回归,可以使用卡方检验(名词解释:https://cloud.tencent.com/developer/news/376546):
anova(fit,fit1,test="Chisq")
卡方检验结果值并不显著
证明两次结果差别不大,证明两次拟合的结果一样好,说明性别、教育程度等不显著变量不会显著的提高方程的预测精度。
在logistic回归中,响应变量是y=1的对数优势比,回归系数的含义是,当其他预测变量不变时,一单位预测变量的变化可能引起的响应变量对数优势比的变化,对回归系数取指数,就能回归正常的数值。
预测拟合结果
可以使用predict()函数根据拟合模型的结果(如此处的fit1)对新数据进行验证,首先创建一个包含你感兴趣的预测变量值的虚拟数据集,testdata,这里为了方便,我们都取数据的平均值。
testdata<-data.frame(rating=c(1,2,3,4,5),age=mean(Affairs$age),yearsmarried=mean(Affairs$yearsmarried),religiousness=mean(Affairs$religiousness)) >head(testdata)
testdata$prob<-predict(fit1,newdata=testdata,type="response") testdata
下面我们再看看年龄的影响,重新生成一个测试数据:
testdata<-data.frame(rating=mean(Affairs$rating),age=seq(17,57,10),yearsmarried=mean(Affairs$yearsmarried),religiousness=mean(Affairs$religiousness))
#这里seq(17,57,10)的意思是,17岁到57岁,以10为间隔生成年龄数,相当于一个以10为差值的年龄等差数列。
testdata$prob<-predict(fit1,newdata=testdata,type="response") testdata
结果显示,当其他变量的增长,婚外情的概率将从0.31降到0.10,利用这种方法可以研究每一个预测变量对结果概率的影响