Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(下)

简介: Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化

Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(上):https://developer.aliyun.com/article/1498586


按年分析失业率

导入失业数据并将其转换为数据框架 删除列名 "1960 "至 "1990 "之间的所有列,因为它们是空列,数据中没有各县报告的这些年份的数据,还删除了 "指标名称 "和 "指标代码 "这两列,因为分析不需要它们。

#  
unemp = unemp.drop(unemp.loc[:, 'Indicator Name':'1990'].columns, axis = 1)

In [590]:

unemp.head(5)

image.png

查看 1991 年至 2020 年各国的基本统计数据摘要

unemp.describe()

image.png

绘制 1991 年至 2020 年各国就业率曲线的函数

def plot_unemp_region(country):
    for c in country:
        plt.plot(unemp.loc[c][1:],label = c)

失业率与国家总失业率对比

从 2015 年开始,爱尔兰在控制失业率方面做得更好,因此在 2020 年持续低迷的大流行病期间,爱尔兰在处理失业率方面做得更好。但从 2019 年开始,爱尔兰的失业率仍有上升趋势,应注意避免进一步的损害。

plot_unemp_regio

image.png

不同国家和地区的失业率

在大流行病期间,爱尔兰在处理失业率方面似乎总体上介于欧盟和美国之间,印度在此期间与爱尔兰紧随其后。数据显示,在过去一年中,美国的失业率在这些国家中最低。

plot_unemp_region(country)

image.png

skiprows = [0], index_col = "Date")

In [588]:

cur.head()

image.png

显示欧元相对于其他主要货币波动

输入要与欧元汇率进行比较的货币列表 ,绘制 2020 年 1 月至 2020 年 10 月期间单个货币相对于欧元的波动图 ,从图中可以看出,在过去几个月中,欧元相对于美元、日元、人民币等主要货币的汇率走低,这表明由于为控制病毒传播而实施的封锁和限制行动的法律,企业和组织无法正常运作。欧元估值受中国货币人民币的影响最大,受印度货币卢比的影响最小。

def plot_currency_rate(currency):
    
    plt.figure(figsize = (30,20))
    for c in list(enumerate(currency)):
        plt.subplot(3, 2,c[0]+1)
        plt.plot(cur.loc[:][c[1]],label = c[1])

In [303]:

plot_currency_rate(currency)

image.png

for c in currency:
                    plt.plot(cur.loc[:][c],label = c)
                    plt.ylabel("Euro", fontsize = 12)

image.png

基于每日病例预测死亡的模型开发

sns.barplot(data=df, x= 'cases' , y = 'deaths' , estimator=np.std)

image.png

从下面代码中的相关矩阵图中,我可以看到死亡和病例之间的相关性高达 0.736,而其他变量之间的相关性很弱。

df.corr()

image.png

sns.heatmap(df.corr())

image.png

sns.heatmap(df.corr(),annot=True , cmap='YlGnBu')

image.png

sns.pairplot(df)

image.png

通过可视化观察数据分布,可以清楚地看出病例数的增加导致死亡人数的增加。因此,为了根据全国每天的病例数预测死亡人数,我们使用了线性回归法来完成这一过程,结果如下。

这段代码用于将数组或矩阵随机分割成训练集和测试集。

# 用于将数组或矩阵随机分割成训练集和测试集
from sklearn.model_selection import train_test_split

自变量为 cases,因变量为 deaths,分别赋值给 X 和 y。

X, y = df[['cases']], df['deaths']
  • X 是包含 "cases" 条目的数据框(DataFrame)的一列,y 是包含目标/响应变量 "deaths" 的序列(Series)。
X.head(5)
  • 数据被划分为测试集和训练集,使用 train_test_split() 函数,以 80:20 的比例进行划分。
  • train_test_split() 函数中的 test_size 参数设为 0.2,表示将 20% 的数据作为测试集。


# 训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

在 [565] 处:

# 定义一个线性回归模型
from sklearn import linear_model
# 使用训练集训练模型
regr.fit(X_train, y_train)

image.png

回归系数

  • 回归系数是未知总体参数的估计值,表示预测变量(cases)与响应变量(deaths)之间的关系。
  • beta0 的回归系数为 0.0196,这意味着平均而言,当没有报告病例时,死亡人数为 0.0196。
  • 截距系数为 6.759,说明每天病例增加一个单位时,死亡人数增加 6.759。例如,每增加 100 个新病例,死亡人数每天增加 7.5。
  • 对测试数据进行线性模型预测死亡人数
#基于测试数据进行预测
y_pre

结果:

image.png

# 每天对应病例数量的实际死亡人数
y_test.head(10)

结果:

image.png

df.head()

结果:

image.png

计算评估指标需要重新调整 X 的形状:

# 重新调整 X 的形状以计算指标
X.values.reshape

结果:

<function ndarray.reshape>

计算均值绝对误差(MAE):

from sklearn.metrics import mean_squared_error,r2_score , mean_absolute_error

平均绝对误差(MAE)

  • 平均绝对误差(MAE)是用于回归模型的另一种损失函数。
  • MAE 是目标变量和预测变量之间的绝对差的总和。
  • 我们有实际值 y_test 和预测值 y_pre,可以观察到它们之间的差异。
#MAE
mean_absolute_error(y_test , y_pre)

结果:

18.3128

R-Squared

  • R-squared 是衡量数据与拟合的回归线之间接近程度的统计指标。
  • 提供了关于预测变量“cases”在我们的模型中如何解释响应变量“death”的程度的指示。
  • 我的模型使用预测变量“cases”能够解释响应变量“death”的变异程度为61%。
#R方分数
r2_score(y_test , y_pre)

结果:

0.6156843

散点图展示了线性回归线以及数据围绕该线分布的情况。

plt.scatter(X_test, y_test , color= 'blue' , linewidths=1)

image.png

g

输出[579]:

0.615

输入[580]:

# 构建随机森林模型。

输入[581]:

from sklearn.ensemble import ExtraTreesRegressor, RandomForestRegressor

输入[582]:

rfr.fit(X_train, y_train)

image.png

Y_pred = rfr.predict(X_test)

输入[584]:

rfr.score(X_test, y_test)

输出[584]:

0.39

输入[585]:

plt.scatter(X_test, Y_pred, color='red')
plt.plot(X_test, y_pre, color='blue', linewidth=0.5)

image.png

结论


通过探索性数据分析,发现每天新冠病例增加时,报告的死亡人数也会有所上升。通过将病例作为预测因子、每天的死亡人数作为目标变量的两个回归模型的结果,线性模型在预测每天的死亡人数方面更准确,与每天报告的病例数相关。

通过对包含失业率和欧元汇率数据的数据集进行数据可视化分析,还能够探索各国为限制病毒传播而引入的限制措施对欧洲主要经济体和失业率产生的影响。

欧元兑美元、英镑、人民币等主要货币的汇率在过去几个月中看到了下降,这表明封锁措施对企业和国家经济的影响。对失业率的影响也在失业率数据中清晰可见,爱尔兰的失业率相对于其他国家来说处理得更好,但在过去几个月中失业率明显上升。


参考资料


  1. https://www.sciencedirect.com/science/article/abs/pii/S0048969720323998


相关文章
|
2天前
|
机器学习/深度学习 数据可视化 vr&ar
|
3天前
|
数据可视化 数据挖掘 Python
数据界的颜值担当!Python数据分析遇上Matplotlib、Seaborn,可视化美出新高度!
【7月更文挑战第24天】在数据科学领域,Python的Matplotlib与Seaborn将数据可视化升华为艺术,提升报告魅力。Matplotlib作为基石,灵活性强,新手友好;代码示例展示正弦波图的绘制与美化技巧。Seaborn针对统计图表,提供直观且美观的图形,如小提琴图,增强数据表达力。两者结合,创造视觉盛宴,如分析电商平台销售数据时,Matplotlib描绘趋势,Seaborn揭示类别差异,共塑洞察力强的作品,使数据可视化成为触动人心的艺术。
23 7
|
1天前
|
机器学习/深度学习 数据采集 算法
数据海洋中的导航者:Scikit-learn库引领Python数据分析与机器学习新航向!
【7月更文挑战第26天】在数据的海洋里,Python以强大的生态成为探索者的首选,尤其Scikit-learn库(简称sklearn),作为一颗璀璨明珠,以高效、灵活、易用的特性引领数据科学家们破浪前行。无论新手还是专家,sklearn提供的广泛算法与工具支持从数据预处理到模型评估的全流程。秉承“简单有效”的设计哲学,它简化了复杂模型的操作,如线性回归等,使用户能轻松比较并选择最优方案。示例代码展示了如何简洁地实现线性回归分析,彰显了sklearn的强大能力。总之,sklearn不仅是数据科学家的利器,也是推动行业进步的关键力量。
|
2天前
|
数据可视化 数据挖掘 Python
|
18天前
|
数据采集 大数据 数据安全/隐私保护
Python编程:如何有效等待套接字的读取与关闭
Python网络编程中,套接字事件处理至关重要。利用`selectors`模块和代理IP能增强程序的稳定性和可靠性。代码示例展示了如何通过代理连接目标服务器,注册套接字的读写事件并高效处理。在代理IP配置、连接创建、事件循环及回调函数中,实现了数据收发与连接管理,有效应对网络爬虫或聊天应用的需求,同时保护了真实IP。
Python编程:如何有效等待套接字的读取与关闭
|
2天前
|
网络协议 开发者 Python
深度探索Python Socket编程:从理论到实践,进阶篇带你领略网络编程的魅力!
【7月更文挑战第25天】在网络编程中, Python Socket编程因灵活性强而广受青睐。本文采用问答形式深入探讨其进阶技巧。**问题一**: Socket编程基于TCP/IP,通过创建Socket对象实现通信,支持客户端和服务器间的数据交换。**问题二**: 提升并发处理能力的方法包括多线程(适用于I/O密集型任务)、多进程(绕过GIL限制)和异步IO(asyncio)。**问题三**: 提供了一个使用asyncio库实现的异步Socket服务器示例,展示如何接收及响应客户端消息。通过这些内容,希望能激发读者对网络编程的兴趣并引导进一步探索。
11 4
|
1天前
|
网络协议 Python
网络世界的建筑师:Python Socket编程基础与进阶,构建你的网络帝国!
【7月更文挑战第26天】在网络的数字宇宙中,Python Socket编程是开启网络世界大门的钥匙。本指南将引领你从基础到实战,成为网络世界的建筑师。
6 2
|
2天前
|
开发者 Python
Python Socket编程:不只是基础,更有进阶秘籍,让你的网络应用飞起来!
【7月更文挑战第25天】在网络应用蓬勃发展的数字时代,Python凭借其简洁的语法和强大的库支持成为开发高效应用的首选。本文通过实时聊天室案例,介绍了Python Socket编程的基础与进阶技巧,包括服务器与客户端的建立、数据交换等基础篇内容,以及使用多线程和异步IO提升性能的进阶篇。基础示例展示了服务器端监听连接请求、接收转发消息,客户端连接服务器并收发消息的过程。进阶部分讨论了如何利用Python的`threading`模块和`asyncio`库来处理多客户端连接,提高应用的并发处理能力和响应速度。掌握这些技能,能使开发者在网络编程领域更加游刃有余,构建出高性能的应用程序。
10 3
|
1天前
|
消息中间件 网络协议 网络安全
Python Socket编程:打造你的专属网络通道,基础篇与进阶篇一网打尽!
【7月更文挑战第26天】在网络编程领域,Python以简洁语法和强大库支持成为构建应用的首选。Socket编程为核心,实现计算机间的数据交换。
8 1