R语言逻辑回归和泊松回归模型对发生交通事故概率建模

简介: R语言逻辑回归和泊松回归模型对发生交通事故概率建模

我们考虑风险敞口,计算包含风险敞口的多个数量(经验均值和经验方差)的非参数估计量。如果要对二项式变量建模。

 

这里的模型如下:

  • 未观察到该期间的索赔数量
  • 索偿的数量  


 

考虑一种情况,其中关注变量不是索偿的数量,而仅仅是索偿发生的标志。利用泊松过程模型,我们可以获得

这意味着在一年的前六个月中没有索赔的概率是一年中没有索赔的平方根。假设可以


通过一些链接函数(使用GLM术语)表示为一些协变量来解释没有索赔的概率,


我们有

我们将使用的数据集


> T1= contrat$nocontrat[I==FALSE]
> nombre2 = data.frame(nocontrat=T1,nbre=0)
> sinistres = merge(contrat,nombre)
> sinistres$nonsin = (sinistres$nbre==0)

我们可以考虑的第一个模型基于标准的逻辑回归方法

但是很难用标准函数处理。尽管如此,始终有可能通过数值计算给定的最大似然估计量。



> optim(fn=logL,par=c(-0.0001,-.001),
+ method="BFGS")
$par
[1] 2.14420560 0.01040707
$value
[1] 7604.073
$counts
function gradient
42       10
$convergence
[1] 0
$message
NULL

现在,让我们看看基于标准回归模型的替代方案。例如对数线性模型(Logistic回归算法)。如果是指数函数(或  对数链接函数)  

现在,我们对其进行编码,



Error: no valid set of coefficients has been found: please supply starting values

尝试了所有可能的方法,但是无法解决该错误消息,




> reg=glm(nonsin~ageconducteur+offset(exposition),
+ data=sinistresI,family=binomial(link="log"),
+ control = glm.control(epsilon=1e-5,trace=TRUE,maxit=50),
+ start=startglm,
+ etastart=etaglm,mustart=muglm)
Deviance = NaN Iterations - 1
Error: no valid set of coefficients has been found: please supply starting values

所以我决定放弃。因为

其中 接近0,

所以我们可以用泰勒展开,

在这里,暴露数不再显示为概率的幂,而是相乘。如果我们考虑对数链接函数,那么我们可以合并暴露数的对数。

最终可以完美运行了。

现在,要查看最终模型,我们回到Poisson回归模型,因为我们确实有概率模型。

现在我们可以比较这三个模型。我们还应该包括没有任何解释变量的预测。对于第二个模型,我们运行


>  regreff=glm((1-nonsin)~1+offset(log(exposition)),
+ data=sinistres,family=binomial(link="log"))

预测




> exp(coefficients(regreff))
(Intercept)
0.06776376

可与逻辑回归比较,








> 1-exp(param)/(1+exp(param))
[1] 0.06747777

但是与泊松模型有很大的不同,


(Intercept)0.07279295

我们产生一个图表比较那些模型,

> lines(age,1-yml1,type="l",col="purple")> abline(h=exp(coefficients(regreff)),lty=2)

 

在这里观察到这三个模型是完全不同的。实际上,使用两个模型,可以进行更复杂的回归分析(例如使用样条曲线),以可视化年龄对发生或不发生交通事故概率的影响。如果将泊松回归(仍为红色)和对数二项式模型与泰勒展开进行比较,我们得到

相关文章
|
4月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
5月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
5月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
5月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
5月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
96 3
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
3月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
65 3
|
8月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
8月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为