Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

在数据科学和机器学习领域,回归分析是一种强大的工具,用于探索变量之间的关系并预测未来的结果。其中,套索回归(Lasso Regression)是一种线性回归方法,特别适用于解决高维数据和过拟合问题。它通过引入正则化项来限制模型复杂度,从而在保持模型预测能力的同时,降低模型的方差点击文末“阅读原文”获取完整代码数据


相关视频

image.png

本文3个实例合集旨在通过实例帮助客户展示Python中套索回归的应用,特别是针对棒球运动员薪水数据的预测。我们将通过详细的代码和数据集,展示如何使用套索回归来分析和预测棒球运动员的薪水。此外,我们还将引入其他两种相关的回归技术——SCAD(Smoothly Clipped Absolute Deviation)和LARS(Least Angle Regression),以便读者能够更全面地了解线性回归模型的不同变体。

SCAD是一种具有平滑绝对偏差惩罚项的回归方法,它在处理高维数据时能够提供更好的模型解释性和预测性能。而LARS则是一种基于最小角回归的算法,它在选择特征时能够考虑特征之间的相关性,从而避免选择高度相关的特征。

1.Python套索回归lasso分析棒球运动员薪水

数据

该数据集包含20个变量和322个观察值,涉及大联盟球员的数据查看文末了解数据免费获取方式。我们希望基于球员上一年度的各种统计数据来预测棒球运动员的薪水。

a46ed9cf8055685ba3e73397b180b5a9.png

导入

ab74196c2d3353f92be2d9cc1a5564a5.png

缺失值

请注意,有些球员的薪水数据是缺失的:

e1ee8ee954ced039b0b585b9a185cd19.png

我们简单地删除了缺失的案例:

# 删除缺失案例  
  df = df.dropna()

创建标签和特征

因为我们将使用scikit learn中的套索算法,所以我们需要将我们的分类特征编码为独热编码数值特征(哑变量):

dummies = pd.get_dummies(df[['League', 'Division','NewLeague']])

1c114c4bd82d7b0dc041c11fa8fe4490.png

7b46e5277e8c8af992a863cfdbe48a54.png


接下来,我们创建标签y:

我们删除包含结果变量(Salary)的列,以及已经创建了哑变量的分类列:

X_numerical = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')

列出所有数值特征(稍后需要用到):

9c6edc21c14e1e603100306015261ccc.png

# 创建所有特征  
  X = pd.concat([X_numerical, dummies[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)

5c65fc86b9adc3361158256a8ae53044.png


数据划分

将数据集划分为训练集和测试集,其中前70%的数据用于训练,剩余的30%用于测试。


520d55d3d1226faff19013d41e42869f.png

标准化

Lasso回归在所有数值特征都围绕0中心化且方差在同一量级时表现最佳。如果一个特征的方差比其他特征大几个数量级,它可能会主导目标函数,导致估计器无法如预期那样从其他特征中正确学习。

这意味着标准化我们的特征很重要。我们通过从观测值中减去均值,然后除以标准差来实现这一点。所谓的标准分数(z-score)对于观测值x的计算公式如下:

474c8dc000c461b1dbacfb3102b280ec.png


其中:

  • x 是特征中的一个观测值
  • μ 是该特征的均值
  • s 是该特征的标准差

为了避免数据泄漏,数值特征的标准化应始终在数据划分之后进行,并且仅使用训练数据。此外,我们从训练数据中获取特征所需的所有统计信息(均值和标准差),并在测试数据上使用它们。注意,我们不标准化哑变量(它们只取0或1的值)。

X_train[list_numerical] = scaler.transform(X_train[list_numerical])

9597d2cfcb194f8abe697542da8186b2.png

Lasso回归

首先,我们在训练集上应用Lasso回归,并任意选择一个正则化参数α为1。

模型评估

我们打印训练集和测试集的R²分数。

bd41a135d0f850b64a972db3e23a9152.png

接着计算训练集和测试集的均方误差(MSE)。

mse_train = mean_squared_error(y_train, pred_train)

这些指标帮助我们了解模型在训练集和测试集上的性能。通常,我们希望看到R²分数在测试集上接近训练集,并且均方误差尽可能小。然而,在实际应用中,模型往往会在训练集上表现更好,这可能是由于过拟合。因此,我们需要仔细调整正则化参数α,以找到模型复杂度和泛化能力之间的最佳平衡。

ea2d461d03d1c95ccda2489e327a8359.png


α的作用

为了更好地理解α的作用,我们绘制了lasso系数随α变化的图形(max_iter是最大迭代次数):

coefs.append(lasso.coef_)  
    
  ax = plt.gca()

fb8e691e56dace7558d7d6aa46df0015.png


请注意,如果α=0,那么lasso将给出最小二乘拟合,而当α变得非常大时,lasso将给出所有系数估计都等于零的空模型。

从图形的左侧到右侧,我们观察到最初lasso模型包含许多预测器,并且系数估计的绝对值很大。随着α的增加,系数估计逐渐趋近于零。

接下来,我们使用交叉验证来找到α的最佳值。

使用最佳α值的Lasso回归

为了找到α的最佳值,我们使用scikit-learn的Lasso线性模型进行迭代拟合,同时沿着正则化路径进行交叉验证(LassoCV)。最佳模型是通过交叉验证选择的。

k折交叉验证

显示交叉验证选择的最佳惩罚值:

python复制代码
  model.alpha_

085e7567f916b42075c292bd15a6c9b4.png


最佳模型

使用最佳α值构建最终模型:

lasso_best.fit(X_train, y_train)


62e8aa80c07b524aff435a9f3ad227c8.png

显示模型系数和名称:

# 获取最佳模型的系数  
  coef = lasso_best.coef_  
  # 将系数和特征名称结合起来  
  # 显示特征及其对应系数  
 print(feature_coef.sort_values())

请注意,上面的代码片段假设您有一个包含特征名称的DataFrame X_df。在实际应用中,您需要将X_train转换为DataFrame(如果它不是的话),并指定相应的列名。然后,您可以创建一个Series对象,将系数与特征名称关联起来,并按值排序来显示哪些特征对模型的影响最大。如果X_train已经是DataFrame并且包含列名,那么您可以直接使用这些列名。如果X_train是NumPy数组,则需要手动创建一个包含特征名称的列表。

5ede062b396cc75d2e04d0908c1a1da9.png

模型评估

为了评估模型的性能,我们可以使用训练集和测试集的R平方分数(决定系数),以及均方误差(Mean Squared Error, MSE)。

这将显示模型在训练集和测试集上的拟合程度。R平方分数越接近1,表示模型的拟合效果越好。

均方误差(MSE)是预测值与真实值之间差异的平方的平均值,它可以帮助我们了解模型预测的错误程度。MSE值越小,说明模型的预测能力越强。

此外,为了更深入地了解模型选择过程,我们还可以绘制Lasso路径图,该图展示了交叉验证过程中不同alpha值对应的均方误差。这有助于我们理解alpha参数如何影响模型的复杂度以及预测性能。

python复制代码
  # 绘制Lasso路径图  
  plt.plot(alphas, coefs.T, '-')

这段代码将生成一个图表,展示随着alpha值的变化,各特征的系数是如何变化的。通过此图,我们可以更直观地理解正则化强度对模型系数的影响,以及哪些特征在模型中更重要。

请注意,绘制Lasso路径图可能需要安装额外的库,如matplotlib,并确保你的环境中有这些库。此外,上面的代码示例假设你已经拟合了LassoCV模型,并将其存储在变量model中。如果你的模型变量名称不同,请相应地替换。

plt.axvline(
    model.alpha_, linestyle="--", color="k", label="alpha: CV

e0f424040f9f71a0f5c1dd52a641836f.png

2.Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

变量选择是高维统计建模的重要组成部分。许多流行的变量选择方法,例如 LASSO,都存在偏差。带平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题,同时还保留了稀疏性的连续惩罚。

惩罚最小二乘法

一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式是

c3f834a8657d70efc7233649c28a2328.png

其中 b9a945c1961f0e7e9c09b55986604445.png 是设计矩阵, ce68966ed2cf555f7d5f776361fde245.png 是因变量的向量, 0ca9af43e89169e19369d1dcae1df5d4.png 是系数的向量, d4e7298a0b4a2ed1e23ba8f8f9b29166.png 是由正则化参数索引的惩罚函数 35e6cab1d248a45906e1bd780dd1cd66.png .

作为特殊情况,请注意 LASSO 对应的惩罚函数为 b7c1671b38901e9d2beac616e10f4fb9.png ,而岭回归对应于 09fb88d9d1a1241e341c68cdb5206ab9.png . 回想下面这些单变量惩罚的图形形状。

f2473972309891d99990818d44866f7a.jpg

SCAD

Fan和Li(2001)提出的平滑剪切绝对偏差(SCAD)惩罚,旨在鼓励最小二乘法问题的稀疏解,同时也允许大值的 β

. SCAD惩罚是一个更大的系列,被称为 "折叠凹陷惩罚",它在以下方面是凹的, R+ 和 R-

. 从图形上看,SCAD 惩罚如下所示:

4158a424a479762f742c9739642a1959.jpg


有点奇怪的是,SCAD 惩罚通常主要由它的一阶导数定义 31b6dd3b9265a772283179f93a533bc0.png , 而不是 327bc7aa87b15120a40b92a975a526b9.png . 它的导数是

839cb6e49434cd1532032ade5e18b35e.png

其中 a 是一个可调参数,用于控制 β 值的惩罚下降的速度,以及函数 87d0dbd46c2b11dd403c27c0fa6d6341.png 等于 40288e81e8774ccf16594d2453304ef1.png 如果 abe198ca11b21d3da051bf2650a9b769.png , 否则为 0。

我们可以通过分解惩罚函数在不同数值下的导数来获得一些洞察力 λ:

ed1a324db02fd3117bcadaf208cb9c8e.png

但是,这意味着对于大系数值,他们的 LASSO 估计将向下偏置。

另一方面,对于较小的 β 值 (其中 |β|≤λ),SCAD 惩罚在 β 中是线性的。对于 β 的中等值(其中 abd10c4f51276585d1e76f3fe2ab3d98.png ),惩罚是二次的。

分段定义,pλ(β) 是

f27e6886f9807320c50c594bc1b64c17.png

在 Python 中,SCAD 惩罚及其导数可以定义如下:

def scad:
    s_lar 
    iudic =np.lgicand
    iscsat = (vl * laval) < np.abs
    
    lie_prt = md_val * pab* iliear
    return liprt + urtirt + cosaat

使用 SCAD 拟合模型

拟合惩罚最小二乘模型(包括 SCAD 惩罚模型)的一种通用方法是使用局部二次近似。这种方法相当于在初始点 β0 周围拟合二次函数 q(β),使得近似:

  • 关于 0 对称,
  • 满足 q(β0)=pλ(|β0|),
  • 满足 q ′ (β0) = p′λ (| β0 |)。

因此,逼近函数必须具有以下形式

50481b7b3d9563799f6ac58bb9e9b39c.png

对于不依赖于 β 的系数 a 和 b 。上面的约束为我们提供了一个可以求解的两个方程组:

2bdf77a1bbae199bd142560de6e698f9.png

为了完整起见,让我们来看看解决方案。重新排列第二个方程,我们有

dbee8875db06a6607d0a18cd471b566a.png

将其代入第一个方程,我们有

07e8ecb03bd144c8734591b6cd5cd5da.png

因此,完整的二次方程是

701dd4b77c4a242b0dfe364eb10e0f88.png

现在,对于系数值的任何初始猜测 β0,我们可以使用上面的 q 构造惩罚的二次估计。然后,与初始 SCAD 惩罚相比,找到此二次方的最小值要容易得多。

从图形上看,二次近似如下所示:

d2a8f1e933b0d15f719f787650b27f3a.png

将 SCAD 惩罚的二次逼近代入完整的最小二乘目标函数,优化问题变为:

fc2a60b6b41d025922d4f4f20380c16b.png

忽略不依赖于 β 的项,这个最小化问题等价于

f9fde9cd602580e5c81d8156c6bf0cfa.png

巧妙地,我们可以注意到这是一个岭回归问题,其中

2dcfade2abd3e487b628cf59e195f121.png

8fd8f4d85d4d707e8cbdbe3097642526.png

回想一下, 岭回归 是

af69787a438af28ff095dd87d39e6d31.png

这意味着近似的 SCAD 解是

55c2042b574f84745b31666bda1a86d5.png


3.Python中的Lasso回归之最小角算法LARS

假设我们期望因变量由潜在协变量子集的线性组合确定。然后,LARS算法提供了一种方法,可用于估计要包含的变量及其系数。

LARS解决方案没有给出矢量结果,而是由一条曲线组成,该曲线表示针对参数矢量L1范数的每个值的解决方案。该算法类似于逐步回归,但不是在每个步骤中都包含变量,而是在与每个变量的相关性与残差相关的方向上增加了估计的参数。

优点:

1.计算速度与逐步回归一样快。

2.它会生成完整的分段线性求解路径,这在交叉验证或类似的模型调整尝试中很有用。

3.如果两个变量与因变量几乎同等相关,则它们的系数应以大致相同的速率增加。该算法因此更加稳定。

4.可以轻松对其进行修改为其他估算模型(例如LASSO)提供解决方案。

5.在p  >>  n的情况下有效  (即,当维数明显大于样本数时)。

缺点:

1.因变量中有任何数量的噪声,并且自变量具有 多重共线性 ,无法确定选定的变量很有可能成为实际的潜在因果变量。这个问题不是LARS独有的,因为它是变量选择方法的普遍问题。但是,由于LARS基于残差的迭代拟合,因此它似乎对噪声的影响特别敏感。

2.由于现实世界中几乎所有高维数据都会偶然地在某些变量上表现出一定程度的共线性,因此LARS具有相关变量的问题可能会限制其在高维数据中的应用。


Python代码:

import matplotlib.pyplot as plt # 绘图
diabetes

查看数据

9de56c661617ad6bb81d613e7bba1c3e.png

x /= np.sqrt(np.sum((x)**2, axis=0)) # 归一化 x
lars.steps() # 执行的步骤数
est = lars.est() # 返回所有LARS估算值
plt.show()

 

 

03492b8ad3d84acda3cb789b9ea6f319.png

 

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
98 0
|
22天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
7天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
16 1
|
8天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
8天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
1月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
45 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
1月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
41 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
1月前
|
数据可视化 算法 Python
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
本文介绍了如何利用Python脚本结合动态模态分解(DMD)技术,分析从OpenFOAM模拟中提取的二维切片数据,以深入理解流体动力学现象。通过PyVista库处理VTK格式的模拟数据,进行POD和DMD分析,揭示流场中的主要能量结构及动态特征。此方法为研究复杂流动系统提供了有力工具。
63 2
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
|
20天前
|
数据可视化 算法 JavaScript
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
本文探讨了如何利用图论分析时间序列数据的平稳性和连通性。通过将时间序列数据转换为图结构,计算片段间的相似性,并构建连通图,可以揭示数据中的隐藏模式。文章介绍了平稳性的概念,提出了基于图的平稳性度量,并展示了图分区在可视化平稳性中的应用。此外,还模拟了不同平稳性和非平稳性程度的信号,分析了图度量的变化,为时间序列数据分析提供了新视角。
48 0
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
|
29天前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
45 2