全网最快入门———R语言机器学习实战篇7《logistic回归》

简介: R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
+关注继续查看

R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

这节课讲logistic回归

项目实操——logistic回归

当通过一系列连续型或类别型预测变量来预测而执行结果变量时,logistic回归时一个非常有用的工具。

导入数据集

这里我们以affair包中的数据为例来阐述logistics回归的过程:

先导入数据集,再使用summary()函数做一个简单的统计,之后使用table()函数统计一下出轨的频数,prop.table()函数统计一下频率:

data(Affairs,package="AER")
summary(Affairs)
table(Affairs$affairs)
> prop.table(table(Affairs$affairs))

image

性别的频数:

prop.table(table(Affairs$gender))

image


Logistic回归需要结果是二值型的,所以我们将其转为二值型的结果,定义一个ynaffairs(年度出轨次数):

Affairs$ynaffairs[Affairs$affairs>0] <- 1
> Affairs$ynaffairs[Affairs$affairs==0] <- 0


可以用过head()函数查看字段是否添加成功

image


接下来将这个变量转化为因子:

Affairs$ynaffairs <- factor(Affairs$ynaffairs,levels = c(0,1),labels = c("NO","Yes"))

image

现在ynaffairs就属于二值型的变量,可以进行logistic回归分析了(这一步去其实是把离散值转化为二项分布)

筛选变量

使用glm()函数进行logistic回归分析(这个数据集的变量比较多,先使用attach()函数将数据集写入内存,使用R的自动补齐功能):

fit <- glm(ynaffairs ~ gender+age+yearsmarried+children+religiousness+education+occupation+rating,data = Affairs,family = binomial(link=logit))
summary(fit)

image

根据回归结果,将不显著的变量去除,重新拟合一次:

> fit1 <- glm(ynaffairs ~ age+yearsmarried+religiousness+rating,data = Affairs,family = binomial(link=logit))

image

由于两个回归结果是嵌套关系,可以使用anova对两者进行方差分析,对于广义线性回归,可以使用卡方检验(名词解释:https://cloud.tencent.com/developer/news/376546):

anova(fit,fit1,test = "Chisq")

卡方检验结果值并不显著

image

证明两次结果差别不大,证明两次拟合的结果一样好,说明性别、教育程度等不显著变量不会显著的提高方程的预测精度。

在logistic回归中,响应变量是y=1的对数优势比,回归系数的含义是,当其他预测变量不变时,一单位预测变量的变化可能引起的响应变量对数优势比的变化,对回归系数取指数,就能回归正常的数值。

image

预测拟合结果

可以使用predict()函数根据拟合模型的结果(如此处的fit1)对新数据进行验证,首先创建一个包含你感兴趣的预测变量值的虚拟数据集,testdata,这里为了方便,我们都取数据的平均值。

testdata <- data.frame(rating=c(1,2,3,4,5),age=mean(Affairs$age),yearsmarried=mean(Affairs$yearsmarried),religiousness=mean(Affairs$religiousness))
> head(testdata)
testdata$prob <- predict(fit1,newdata = testdata,type = "response")
testdata

image


下面我们再看看年龄的影响,重新生成一个测试数据:

testdata <- data.frame(rating=mean(Affairs$rating),age=seq(17,57,10),yearsmarried=mean(Affairs$yearsmarried),religiousness=mean(Affairs$religiousness))

#这里seq(17,57,10)的意思是,17岁到57岁,以10为间隔生成年龄数,相当于一个以10为差值的年龄等差数列。


testdata$prob <- predict(fit1,newdata = testdata,type = "response")
testdata

image

结果显示,当其他变量的增长,婚外情的概率将从0.31降到0.10,利用这种方法可以研究每一个预测变量对结果概率的影响

相关文章
|
15天前
|
机器学习/深度学习 资源调度 算法
【机器学习基础】对数几率回归(logistic回归)
【机器学习基础】对数几率回归(logistic回归)
37 0
|
15天前
|
机器学习/深度学习 Python
【机器学习Python实战】logistic回归
【机器学习Python实战】logistic回归
22 0
|
15天前
|
机器学习/深度学习 人工智能 算法
【机器学习基础】机器学习入门(2)
【机器学习基础】机器学习入门(2)
11 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习实战项目】10分钟学会Python怎么用Logistic回归进行分类预测(一)
【机器学习实战项目】10分钟学会Python怎么用Logistic回归进行分类预测(一)
60 0
|
6月前
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-逻辑回归(Logistic Regression)
机器学习经典算法-个人笔记和学习心得分享
51 0
|
7月前
|
机器学习/深度学习 算法
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
|
7月前
|
机器学习/深度学习 算法
【机器学习】Logistic回归(重新整理)
【机器学习】Logistic回归(重新整理)
70 0
|
11月前
|
机器学习/深度学习 人工智能 算法
【机器学习】逻辑回归(Logistic Regression)(理论+图解+公式推导+代码实现)
【机器学习】逻辑回归(Logistic Regression)(理论+图解+公式推导+代码实现)
309 0
【机器学习】逻辑回归(Logistic Regression)(理论+图解+公式推导+代码实现)
|
机器学习/深度学习 数据可视化 算法
吴恩达机器学习ex2 Logistic Regression (python)(下)
吴恩达机器学习ex2 Logistic Regression (python)(下)
吴恩达机器学习ex2 Logistic Regression (python)(下)
|
机器学习/深度学习 算法 数据可视化
吴恩达机器学习ex2 Logistic Regression (python)(上)
吴恩达机器学习ex2 Logistic Regression (python)
吴恩达机器学习ex2 Logistic Regression (python)(上)
热门文章
最新文章
相关产品
机器翻译
推荐文章
更多