R语言逻辑回归和泊松回归模型对发生交通事故概率建模

简介: R语言逻辑回归和泊松回归模型对发生交通事故概率建模

我们考虑风险敞口,计算包含风险敞口的多个数量(经验均值和经验方差)的非参数估计量。如果要对二项式变量建模。

 

这里的模型如下:

  • 未观察到该期间的索赔数量
  • 索偿的数量  


 

考虑一种情况,其中关注变量不是索偿的数量,而仅仅是索偿发生的标志。利用泊松过程模型,我们可以获得

这意味着在一年的前六个月中没有索赔的概率是一年中没有索赔的平方根。假设可以


通过一些链接函数(使用GLM术语)表示为一些协变量来解释没有索赔的概率,


我们有

我们将使用的数据集


> T1= contrat$nocontrat[I==FALSE]
> nombre2 = data.frame(nocontrat=T1,nbre=0)
> sinistres = merge(contrat,nombre)
> sinistres$nonsin = (sinistres$nbre==0)

我们可以考虑的第一个模型基于标准的逻辑回归方法

但是很难用标准函数处理。尽管如此,始终有可能通过数值计算给定的最大似然估计量。



> optim(fn=logL,par=c(-0.0001,-.001),
+ method="BFGS")
$par
[1] 2.14420560 0.01040707
$value
[1] 7604.073
$counts
function gradient
42       10
$convergence
[1] 0
$message
NULL

现在,让我们看看基于标准回归模型的替代方案。例如对数线性模型(Logistic回归算法)。如果是指数函数(或  对数链接函数)  

现在,我们对其进行编码,



Error: no valid set of coefficients has been found: please supply starting values

尝试了所有可能的方法,但是无法解决该错误消息,




> reg=glm(nonsin~ageconducteur+offset(exposition),
+ data=sinistresI,family=binomial(link="log"),
+ control = glm.control(epsilon=1e-5,trace=TRUE,maxit=50),
+ start=startglm,
+ etastart=etaglm,mustart=muglm)
Deviance = NaN Iterations - 1
Error: no valid set of coefficients has been found: please supply starting values

所以我决定放弃。因为

其中 接近0,

所以我们可以用泰勒展开,

在这里,暴露数不再显示为概率的幂,而是相乘。如果我们考虑对数链接函数,那么我们可以合并暴露数的对数。

最终可以完美运行了。

现在,要查看最终模型,我们回到Poisson回归模型,因为我们确实有概率模型。

现在我们可以比较这三个模型。我们还应该包括没有任何解释变量的预测。对于第二个模型,我们运行


>  regreff=glm((1-nonsin)~1+offset(log(exposition)),
+ data=sinistres,family=binomial(link="log"))

预测




> exp(coefficients(regreff))
(Intercept)
0.06776376

可与逻辑回归比较,








> 1-exp(param)/(1+exp(param))
[1] 0.06747777

但是与泊松模型有很大的不同,


(Intercept)0.07279295

我们产生一个图表比较那些模型,

> lines(age,1-yml1,type="l",col="purple")> abline(h=exp(coefficients(regreff)),lty=2)

 

在这里观察到这三个模型是完全不同的。实际上,使用两个模型,可以进行更复杂的回归分析(例如使用样条曲线),以可视化年龄对发生或不发生交通事故概率的影响。如果将泊松回归(仍为红色)和对数二项式模型与泰勒展开进行比较,我们得到

相关文章
|
5月前
|
机器学习/深度学习 资源调度 算法
【机器学习基础】对数几率回归(logistic回归)
【机器学习基础】对数几率回归(logistic回归)
130 0
|
5天前
|
机器学习/深度学习 计算机视觉
数据分享|R语言GLM广义线性模型:逻辑回归、泊松回归拟合小鼠临床试验数据(剂量和反应)示例和自测题
数据分享|R语言GLM广义线性模型:逻辑回归、泊松回归拟合小鼠临床试验数据(剂量和反应)示例和自测题
55 5
|
5天前
|
机器学习/深度学习 数据可视化 算法
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
|
12天前
|
数据可视化 数据挖掘 计算机视觉
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
32 7
|
12天前
|
算法 C++ Python
R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据
R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据
33 0
|
13天前
|
机器学习/深度学习 数据可视化 算法
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
17 0
|
13天前
|
机器学习/深度学习
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
28 0
|
14天前
|
机器学习/深度学习 存储 5G
R语言回归中的Hosmer-Lemeshow拟合优度检验
R语言回归中的Hosmer-Lemeshow拟合优度检验
23 7
|
14天前
|
机器学习/深度学习 人工智能
R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析
R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析
|
1月前
|
机器学习/深度学习 数据采集 算法
乳腺癌预测:特征交叉+随机森林=成功公式?
乳腺癌预测:特征交叉+随机森林=成功公式?
21 0
乳腺癌预测:特征交叉+随机森林=成功公式?

热门文章

最新文章