机器学习线性回归分析和预测棒球比赛数据

2022-05-30 517

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 要成为自己的光呀

对 baseball_02.csv 里面的数据进行分析，并利用 sklearn 的线性回归模型预测球队的表现
有关MLB的详细信息，请参阅以下中文维基百科页面： https://bk.tw.lvfukeji.com/wiki/MLB 你也可以看电影《金钱球》，了解奥克兰田径队是如何利用分析来重塑棒球队的管理的
分析和代码测试都是在 jupyter notebook 环境中进行的

一、查看数据

# 导入需要用到的包importnumpyasnpimportpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltimportmatplotlibasmplfromsklearnimportlinear_model%matplotlibinline

# 读取数据  查看前5行数据baseball=pd.read_csv('baseball_02.csv')
baseball.head(5)

分析时需要用到的字段的含义

RS：run scored 得分
RA：run allowes 失分
W：win 获胜次数
OBP上垒率/打者不出局率：安打数+保送数+触身球数/打数+保送数+触身球数
SLG长打率/衡量打者长打能力：一垒打数+二垒打数2+三垒打数3+全垒打数*4/该打者的打数
BA打击率：安打数/打数
Playoffs 季后赛：0：未进入季后赛 1：进入季后赛
OOBP：对手的基本百分比
OSLG：对手的重击百分比

二、线性回归分析与预测

第一个预测问题是
一支球队要在常规赛中赢多少场才能进入季后赛？
现在，你可以将常规赛简化成一道数学题，利用1995年至2001年的数据绘制散点图。

# 分组  进入季后赛 与 未进入季后赛分组 统计各自最小的胜投次数baseball.groupby('Playoffs').min()['W']

从历史数据来看，要进入季后赛，至少需要赢 82 场

# -*- coding: UTF-8 -*-"""@Author  ：叶庭云@公众号  ：风采更胜往昔@CSDN    ：https://yetingyun.blog.csdn.net/"""# 条件筛选 从1995年至2001年且进入季后赛的队伍  统计这些队伍的获胜次数  散点图可视化baseball2=baseball[baseball["Year"]>=1995].copy()
baseball2=baseball2[baseball2["Year"]<=2001].copy()
baseball2=baseball2[baseball2["Playoffs"]==1].copy()
plt.figure(figsize=(12, 8), dpi=120)
mpl.rcParams['font.family'] ='SimHei'plt.style.use('ggplot')
plt.scatter(range(baseball2.shape[0]),baseball2["W"],color='red')
plt.xlabel('各个队伍')
plt.ylabel('胜投数')
plt.savefig('test_01.png')
baseball2.shape# (48, 15)

从散点图容易看出，有一个最小值82，但大部分散点在 85 以上，所以一支球队要在常规赛中获胜 85 场以上，进入季后赛的概率很大。

思考一个团队如何才能取得 X 场胜利
当一个队的得分比对手多时，它就会获胜。但是，球队要赢了多少次？
使用一个线性回归模型，回答一个问题：如何能使一个球队获胜，在常规赛中，它的得分需要比失分多多少分？
首先，您只使用2002年以前的数据

baseball2=baseball[baseball["Year"]<=2002].copy()
baseball2.head()

为了使问题更简单，您可以创建一个变量来保存球队得分和球队失分的差。
然后，您可以将该变量用作线性回归模型中的单个自变量，因变量是获胜次数。

# -*- coding: UTF-8 -*-"""@Author  ：叶庭云@公众号  ：风采更胜往昔@CSDN    ：https://yetingyun.blog.csdn.net/"""baseball2["newVar"] =baseball2["RS"] -baseball2["RA"]
reg1=linear_model.LinearRegression()
# 球队得分和球队失分的差x=baseball2["newVar"].values.reshape(-1,1)
# 获胜次数y=baseball2["W"].values.reshape(-1,1)
reg1.fit(x,y)
yPred=reg1.predict(x)
# 预测至少胜 85 场进季后赛  在常规赛中，球队的得分需要比失分多89.858009分predict_sample=reg1.predict([[85]])
print(predict_sample[0][0])
plt.figure(figsize=(12, 8), dpi=120)
plt.rcParams['axes.unicode_minus']=False# 用于解决不能显示负号的问题plt.clf()
# fig,ax = plt.subplots(1,1)plt.scatter(x,y,label="true",color='blue')
plt.scatter(x,yPred,label="pred",color='red')
plt.xlabel('得分与失分之差')
plt.ylabel('获胜次数')
plt.savefig('test_02.png')   # 保存图片plt.legend()   # 显示图例

根据拟合的线性回归模型，如果一支球队想要赢得 85 场胜利，它球队的得分比失分需要多大约 90 分。

现在，从上面的线性回归模型中，你知道一个团队应该比它允许的 X 胜是多少次。
从本质上讲，一支球队的得分应该超过它允许的获胜次数。接下来，我们要预测球队的得分和允许的失分。
关于得分，假设两个棒球统计数据比其他任何东西都重要：
（1）上垒百分比（OBP）：玩家在垒上的时间百分比（包括步行）
（2）重击百分比（SLG）：玩家在回合中绕垒的距离（测量力量）
（3）对于你的回归模型，你还包括另一个变量，（BA）：击球得分

# 运行一个带有上述三个变量的线性回归模型来预测得分x=baseball2[["OBP","SLG","BA"]].values.reshape(-1,3)
y=baseball2[["RS"]].values.reshape(-1,1)
reg2=linear_model.LinearRegression()
reg2.fit(x,y)
yPred=reg2.predict(x)
baseball2["3var_pred"] =yPredbaseball2[["OBP","SLG","BA","RS","3var_pred"]].head()

# 运行另一个只有两个变量的线性回归模型，OBP和SLGx=baseball2[["OBP","SLG"]].values.reshape(-1,2)
y=baseball2[["RS"]].values.reshape(-1,1)
reg3=linear_model.LinearRegression()
reg3.fit(x,y)
yPred=reg3.predict(x)
baseball2["OBP SLG pred"] =yPredbaseball2[["OBP","SLG","RS","OBP SLG pred"]].head()

如果一支棒球队的OBP为0.311，SLG为0.405，我们期望该队得分多少分？

x=np.array([0.311,0.405]).reshape(-1,2)
var2_Pred=reg3.predict(x)
print(var2_Pred[0][0])

我们可以使用线性回归模型来预测允许的失分。
使用以下两个变量，OOBP（对手的基本百分比）和OSLG（对手的重击百分比）。

print(baseball.columns)
baseball3=baseball.dropna(subset=['OOBP'], axis=0, inplace=False)
baseball3=baseball.dropna(subset=['OSLG'], axis=0, inplace=False)
#baseball2.head()x=baseball3[["OOBP","OSLG"]].values.reshape(-1,2)
y=baseball3[["RA"]].values.reshape(-1,1)
reg4=linear_model.LinearRegression()
reg4.fit(x,y)
yPred=reg4.predict(x)
baseball3["OOBP OSLG pred"] =yPredbaseball3[["OOBP","OSLG","RA","OOBP OSLG pred"]].head()

如果一支棒球队的对手OBP（OOBP）为0.297，对手SLG（OSLG）为0.370，预期球队允许失分多少？

x=np.array([0.297,0.370]).reshape(-1,2)
yPred=reg4.predict(x)
print(yPred[0][0])

现在让我们假设我们使用线性回归模型来预测2002年奥克兰A队将赢得多少场比赛
在我们的数据中，‘Team’ 变量中的 OAK 代表oaklanda。
运行的模型使用团队统计数据。我们将使用 2001 年的团队统计数据来预测 2002 年的情况。
2001年奥克兰A队的 OBP 和 SLG 是多少？根据我们的得分模型，这个队预计能得分多少?

# 提取2001年oaklanda的数据baseball2=baseball[baseball["Team"]=="OAK"].copy()
baseball2=baseball2[baseball2["Year"]==2001].copy()[["OBP","SLG"]]
print(baseball2.head())  # OBP和SLGx=baseball2.values.reshape(-1,2)
yPred=reg4.predict(x)
print()
print(yPred[0][0])   # 预测得分RS=yPred[0][0]

2001年奥克兰A队的OOBP和OSLG是多少？根据我们的允许失分模型，该球队预计失分多少

baseball2=baseball[baseball["Team"]=="OAK"].copy()
baseball2=baseball2[baseball2["Year"]==2001].copy()[["OOBP","OSLG"]]
print(baseball2.head())
x=baseball2.values.reshape(-1,2)
yPred=reg3.predict(x)
print()
print(yPred[0][0])    # 预测失分RA=yPred[0][0]

现在我们已经预测了2002年奥克兰A的得分和失分。根据预测和我们的获胜模型，预计球队会赢多少场？

x=np.array(RS-RA).reshape(-1,1)
wPred=reg1.predict(x)[0][0]
print(wPred)
# 大约会赢101场

根据预测的获胜次数，你预测球队是否会在2002年进入季后赛？

这支球队会在2002年进入季后赛，根据线性回归模型预测出的获胜的场数约为101场，大于85。

从我们的数据中，你可以了解2002年奥克兰A队的实际表现。
你认为你的预测在得分、允许跑数和获胜数方面是否接近实际表现？

# -*- coding: UTF-8 -*-"""@Author  ：叶庭云@公众号  ：风采更胜往昔@CSDN    ：https://yetingyun.blog.csdn.net/"""oak2002=baseball[baseball["Team"]=="OAK"].copy()
oak2002=oak2002[oak2002["Year"]==2002].copy()
print(f'Playoffs：{oak2002["Playoffs"].values}')    
print("事实  RS:%.2f  RA:%.2f  W:%.2f"%(oak2002["RS"],oak2002["RA"],oak2002["W"]))
print("预测  RS:%.2f  RA:%.2f  W:%.2f"%(RS,RA,wPred))

这支球队 2002 年的确进入季后赛了，预测的得分、失分、获胜场数与真实数据相比差异不大，因为每年团队层面的差异并不大

所以用 2001 年的数据来预测 2002 年的数据也不会有太大的差异，误差较小

机器学习线性回归分析和预测棒球比赛数据

一、查看数据

二、线性回归分析与预测

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习 线性回归分析和预测棒球比赛数据

一、查看数据

二、线性回归分析与预测

热门文章

最新文章

相关课程

相关电子书

相关实验场景

机器学习线性回归分析和预测棒球比赛数据