R语言中回归和分类模型选择的性能指标

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: R语言中回归和分类模型选择的性能指标

有多种性能指标来描述机器学习模型的质量。但是,问题是,对于问题正确的方法是什么?在这里,我讨论了选择回归模型和分类模型时最重要的性能指标。请注意,此处介绍的性能指标不应用于特征选择,因为它们没有考虑模型的复杂性。

回归的绩效衡量

对于基于相同函数集的模型,RMSE和R2 通常用于模型选择。

均方误差

均方误差由比较预测y ^与观察到的结果y所得的残差平方和:

由于MSE是基于残差平方的,因此它取决于结果平方 。因此,MSE的根通常用于报告模型拟合:

均方误差的一个缺点是它不是很容易解释,因为MSE取决于预测任务,因此无法在不同任务之间进行比较。例如,假设一个预测任务与估计卡车的重量有关,而另一项与估计苹果的重量有关。然后,在第一个任务中,好的模型可能具有100 kg的RMSE,而在第二个任务中,好的模型可能具有0.5 kg的RMSE。因此,虽然RMSE可用于模型选择,但很少报告,一般使用R2。

皮尔逊相关系数

由于确定系数可以用皮尔逊相关系数来解释,因此我们将首先介绍该方法。令Y ^ 表示模型估计,而Y表示观察到的结果。然后,相关系数定义为:

其中Cov(⋅,⋅)∈R是协方差,而σ是标准偏差。协方差定义为

其中,μ表示平均值。在离散设置中,可以将其计算为

这意味着,如果预测和结果与平均值的偏差相似,则它们的协方差将为正;如果与平均值具有相对的偏差,则它们之间的协方差将为负。

标准偏差定义为

在离散设置下,可以计算为

请注意,R函数  sd 计算总体标准差,该标准差用于获得无偏估计量。如果分布较宽(均值附近的宽分布),则σ高;如果分布较窄(均值周围的较小分布),则σ小。

关联 :协方差和标准差

为了更好地理解协方差,我们创建了一个绘制测量值与均值偏差的函数:

means <- c(mean(y), mean(y.hat))
 
    df <- data.frame("N" = c(seq\_along(y), seq\_along(y)), 
                     "Deviation" = c(y.deviation, y.hat.deviation),
 
    ggplot() + 
        geom_segment(size = 2, data = segment.df, 
                    aes(x = N, xend = N, y = Y, yend = Yend, color = Contribution))  +
        geom_point(data = df, alpha = 0.8, size = 2,

然后,我们生成代表三种协方差的数据:正协方差,负协方差和无协方差:

# 协方差 
df.low <- data.frame(Y = y, Y_Hat = y.hat)
plot(y, y.hat)
 
y.hat <- y - 2 * (y - y.mean) + noise
plot.mean.deviation(y, y.hat)
# 没有协方差
y.hat <- runif(N, -0.1, 0.1)

注意离群值(与均值的高偏差)对协方差的影响大于与均值接近的值。此外,请注意,协方差接近0表示变量之间在任何方向上似乎都没有关联(即各个贡献项被抵消了)。

由于协方差取决于数据的散布,因此具有高标准偏差的两个变量之间的绝对协方差通常高于具有低方差的变量之间的绝对协方差。让我们可视化此属性:

plot(y, y.hat)

df.high <- data.frame(Y = y, Y_Hat = y.hat)

因此,协方差本身不能得出关于两个变量的相关性的结论。这就是为什么Pearson的相关系数通过两个变量的标准偏差将协方差归一化的原因。由于这将相关性标准化到范围[-1,1] ,因此即使变量具有不同的方差,也可以使相关性具有可比性。值-1表示完全负相关,值1表示完全正相关,而值0表示没有相关。

R2确定系数

确定系数R2 定义为

其中  SSres是平方的残差和,SStot是平方 的总和。对于模型选择,R2等效于RMSE,因为对于基于相同数据的模型,具有最小MSE的模型也将具有最大值   。

可以根据相关系数或根据解释的方差来解释确定系数。

用相关系数解释

R平方通常为正,因为具有截距的模型会产生SSres <SStot的预测Y ^ ,因为模型的预测比平均结果更接近结果。因此,只要存在截距,确定系数就是相关系数的平方:

用解释方差解释

在平方总和分解为残差平方和回归平方和的情况下  ,

然后

这意味着R2 表示模型所解释的方差比。因此,R2 = 0.7的模型将解释70% 的方差,而剩下30% 的方差无法解释。

确定系数

为了获得有关R2 ,我们定义了以下函数,利用它们可以绘制线性模型的拟合。理想模型将位于曲线的对角线上,并且将残差表示为与该对角线的偏差。

# 确保该模型被解释为GLM
    pred <- model$fitted.values
  
        plot.df <- data.frame("Prediction" = pred, "Outcome" = obs, 
                                "DataSet" = "training")
 
    if (!is.null(test.preds) && !is.null(test.labels)) {
        #存储预测点
        test.df <- data.frame("Prediction" = test.preds, 
                            "Outcome" = test.labels, "DataSet" = "test")
 
 ggplot() + 
        # 绘制训练样本
        geom_point(data = plot.df, 
            aes(x = Outcome, y = Prediction, color = DataSet))

例如,比较以下模型

尽管基于的模型  df.low 具有足够的拟合度(R平方为0.584),  但df.low 不能很好地拟合数据(R平方为0.009)。

R平方的局限性

仅基于R平方盲目选择模型通常不是好方法。首先,R平方不一定能告诉我们一些关于拟合优度的信息。例如,考虑具有指数分布的数据:

plot(x,y)

让我们为基于这些数据的线性模型计算R 2:

## \[1\] 0.9

如我们所见,R平方非常高。尽管如此,该模型仍无法很好地拟合,因为它不遵守数据的指数分布。

R2的另一个属性是它取决于值范围。R2通常在X的宽值范围内较大,这是因为协方差的增加是由标准偏差调整的,该标准偏差的缩放速度比1N 项引起的协方差的缩放速度慢。

## \[1\] "R squared: 0.924115453794893, MSE:0.806898017781999"
## \[1\] "R squared: 0.0657969487417489, MSE:0.776376454723889"

我们可以看到,即使两个模型的残差平方和相似,第一个模型的R2 也更高。

分类模型的绩效指标

二进制分类的许多性能度量均依赖于混淆矩阵。假设有两个类别,0和1,其中1表示特征的存在(正类),0表示特征的不存在(负类)。相应的混淆矩阵是具有以下结构的2×2表:

预测/参考 0 1个
0 TN FN
1个 FP TP

其中TN表示真实否定的数量(模型正确预测否定类别),FN表示假否定的数量(模型错误地预测否定类别),FP表示错误肯定的数量(模型错误地预测肯定类别),TP表示真实阳性的数量(模型正确预测阳性类别)。

准确性与敏感性和特异性

基于混淆矩阵,可以计算准确性,敏感性(真阳性率,TPR)和特异性(1-假阳性率,FPR):

准确性表示正确预测的总体比率。准确性指标被认为很差,因为如果类别标签不平衡,它就不合适。例如,假设您要预测稀有肿瘤的存在(1类)与不存在的罕见肿瘤(0类)。让我们假设只有10%的数据点属于肯定类别,而90%的数据属于正面类别。总是预测阴性分类(即未发现肿瘤)的分类器的准确性如何?这将是90%。但是,这可能不是一个非常有用的分类器。因此,灵敏度和特异性通常优于准确性。

敏感性表示正确预测的观察到的阳性结果的比率,而特异性表示与阳性分类相混淆的观察到的阴性结果的比率。这两个数量回答以下问题:

  • 敏感性:如果事件发生,则模型检测到事件的可能性有多大?
  • 特异性:如果没有事件发生,那么该模型识别出没有事件发生的可能性有多大?

我们始终需要同时考虑敏感性和特异性,因为这些指标本身对模型选择没有用。例如,始终预测阳性类别的模型将使灵敏度最大化,而始终预测阴性类别的模型将使特异性最大化。但是,第一个模型的特异性较低,而第二个模型的灵敏度较低。因此,敏感性和特异性可以解释为跷跷板,因为敏感性的增加通常导致特异性的降低,反之亦然。

通过计算平衡精度,可以将灵敏度和特异性合并为一个数量 。

平衡精度是更适合于类别不平衡的问题的度量。

ROC曲线下方的区域

评分分类器是为每个预测分配一个数值的分类器,可用作区分这两个类的临界值。例如,二进制支持向量机将为正类分配大于1的值,为负类分配小于-1的值。对于评分分类器,我们通常希望确定的模型性能不是针对单个临界值而是针对多个临界值。

这就是AUC(ROC曲线下方的区域)出现的位置。此数值表示在几个截止点的灵敏度和特异性之间进行权衡。这是因为接收器工作特性(ROC)曲线只是TPR与FPR的关系图,而AUC是由该曲线定义的面积,在[0,1]范围内。

使用R,我们可以使用ROCR 包来计算AUC  。让我们首先创建一个用于绘制分类器及其AUC得分的函数:

hist(y.hat\[y == 0\], col=rgb(1,0,0,0.5), 
    hist(y.hat\[y == 1\], col = rgb(0,0,1,0.5), add=T,

第一个示例显示允许完美分离的分类器的AUC为1。不能完全分离的分类器需要牺牲特异性来提高其灵敏度。因此,它们的AUC将小于1。

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
7月前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
|
7月前
|
机器学习/深度学习
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(1)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
7月前
|
机器学习/深度学习 移动开发 Go
R语言经济学:动态模型平均(DMA)、动态模型选择(DMS)预测原油时间序列价格
R语言经济学:动态模型平均(DMA)、动态模型选择(DMS)预测原油时间序列价格
|
7月前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。