【R语言实战】——Logistic回归模型

简介: 【R语言实战】——Logistic回归模型

该篇文章主要展示了利用R语言建立Logistic回归模型,并对新数据进行预测。

1. 数据背景:

  (Sports2.csv)是用于客观性分析的体育文章数据.使用Amazon Mechanical Turk对1000篇体育文章标记了objective(客观)或subjective(主观),这是因变量的两个水平。试以该数据中的Label为因变量,PRP和VBN作为自变量做logistic回归,并对新的样本PRP=20和VBN=5进行判别其Label。

2 数据读取及预处理

  运行程序:

e2<- read.csv('G:\\Sports2.csv')
#Label赋值(二分类)
e2[,1] <- as.character(e2[,1])
e2[,1] <- gsub("objective",0,e2[,1]) #objective为0
e2[,1] <- gsub("subjective",1,e2[,1])#subjective为1
e2[,1] <- as.numeric(e2[,1])
str(e2)

  运行结果:

## 'data.frame':    1000 obs. of  9 variables:
##  $ Label     : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ PRP       : int  2 5 0 2 9 6 2 7 10 15 ...
##  $ VBN       : int  0 9 2 1 6 1 3 10 4 6 ...
##  $ imperative: int  0 0 0 1 1 0 0 3 3 3 ...
##  $ Quotes    : int  0 7 0 3 4 6 2 9 10 0 ...
##  $ past      : int  11 13 8 13 34 24 13 21 59 73 ...
##  $ CC        : int  7 1 8 7 33 17 1 5 49 13 ...
##  $ JJS       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ WRB       : int  0 0 0 0 0 0 0 0 0 0 ...

3 建立Logistic回归模型

  运行程序:

attach(e2)
e2_glm<-glm(Label~PRP+VBN,family = binomial(link = "logit"))
summary(e2_glm)

  运行结果:

## 
## Call:
## glm(formula = Label ~ PRP + VBN, family = binomial(link = "logit"))
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -3.046  -0.713  -0.541   0.847   2.089  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -2.06267    0.13795  -14.95   <2e-16 ***
## PRP          0.02991    0.01077    2.78   0.0055 ** 
## VBN          0.09711    0.00932   10.41   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1312.5  on 999  degrees of freedom
## Residual deviance: 1026.9  on 997  degrees of freedom
## AIC: 1033
## 
## Number of Fisher Scoring iterations: 4

  由此得到初步的Logistic模型:

image.png

  由数据结果可以看出,在0.01的显著性水平下,自变量PRP和VBN均通过显著性检验。

4 模型预测

  运行程序:

detach(e2)
xb<-predict(e2_glm,data.frame(PRP=20,VBN=5))
p=exp(xb)/(1+exp(xb));p

  运行结果:

##      1 
## 0.2731

  所以结果为0,属于objective (客观)。

相关文章
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
6月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
7月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
10月前
|
数据可视化 算法
【R语言实战】——kNN和朴素贝叶斯方法实战
【R语言实战】——kNN和朴素贝叶斯方法实战
|
5天前
|
数据采集 机器学习/深度学习 数据可视化
探索大数据分析的无限可能:R语言的应用与实践
探索大数据分析的无限可能:R语言的应用与实践
40 9
|
6月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
5月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
93 3
|
10月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
10月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为