Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(上)

简介: Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化

全文链接:https://tecdat.cn/?p=33536


自2019年12月以来,传染性冠状病毒疾病2019(COVID-19)迅速席卷全球,并在短短几个月内达到了大流行状态点击文末“阅读原文”获取完整代码数据


迄今为止,全球已报告了超过6800万例病例。为了应对这一大流行病,实施了公共卫生政策,通过实施“居家令”政策来减缓COVID-19的传播。

因此,为了检查全球范围内采取的限制措施对人员流动性的有效性,我们帮助客户研究死亡人数与时间的关系。

问题陈述:

该项目的目标是分析各国政府采取的各种限制措施对人员流动性的影响,以控制COVID-19病例和由此导致的死亡人数对经济和失业率的影响。我们使用汇率数据来查看这些限制措施对经济的影响,并在此期间检查失业率的变化。我开发了一个模型来预测由于病例增加而导致的COVID-19相关死亡人数。

image.png

使用 read csv 读取数据,然后使用数据可视化探索数据

df.columns

image.png

数据信息


-数据集中的分类变量:dateRep、countriesAndTerritories、geoId、countryterritoryCode、continentExp -数据集中的无限变量:日、月、年、病例数、死亡数、popData2019、Cumulative_number_for_14_days_of_COVID-19_cases_per_100000

df.info()

image.png

数据集中有 49572 个观测值和 12 个特征值

df.shape

Out[7]:

(49572, 12)

In [8]:

#属性/特征之间的相关性
 
df.corr()

image.png

#数据集说明
 
df.describe()

image.png

每天的 14 天累计病例数、病例数和死亡数。

2783 14 天累计病例数不为零的天数

报告的 14 天累计病例数为零的天数。

报告的 14 天累计死亡人数为零的天数。

# 数据清洗-检查是否存在空值
df.isnull()
# 这些似乎是数据集中的真实读数,因此将其从数据集中删除可能会改变分析结果。所以保持原样。
print(df["Cumulative_number_for_14_days_of_COVID-19_cases_per_100000"].isnull().value_counts()) # 2783天中没有累积14天病例为零

image.png

#可视化
import seaborn as sns

In [107]:

df.columns

image.png

# 该函数接受特征/列名作为输入。
# 绘制特征在天数和月份上的计数情况。
def plots_days_mnths(x):
    
    plt.figure(figsize = (30,20))
    feature = ['day','month']
  • 病例数的日分析和月分析
  • 从病例图中我们可以看出,报告病例从 1 月份开始迅速增加,到 2020 年 7 月至 9 月达到最高峰。
  • 而各月每天的报告病例数大致相等。
plots_days

image.png

最初几个月报告的死亡病例有所增加,但从图中可以看出,自 7 月份以来已得到控制。每月各天的报告死亡病例数大体相当,但略有不同。

plots_days_m

image.png

import numpy as np

截至 2010 年 10 月,全世界报告的病例总数约为 39400032 例。

df['cases'].sum()

image.png

plt.ylabel('Counts', fontsize =14)
plt.title("Histogram of cases ", fontsize = 16)

Out[114]:

[0, 100000, 0, 100]

image.png

在大多数情况下,每天报告的死亡人数在 500 人及以下。在大多数天数中,约有 50%的天数每天报告的新病例超过 40000 例。全世界平均每天报告的死亡人数约为 795 人,平均每天报告的死亡人数为 23 人。

df[['deaths', 'cases']].mean(axis = 0, skipna = True)

image.png

截至 2010 年 10 月,全世界报告的死亡总人数约为 1105353 人

df['deaths'].sum()

image.png

plt.xlabel('deaths', fontsize = 14)
plt.ylabel('Counts', fontsize =14)

image.png

image.png

# 将日期列转换为日期时间格式,以便绘制图表。
date = pd.to_datetime(df['dateRep']) 
plt.figure(figsize =(15,10))

image.png

image.png

点击标题查阅往期内容


Python用RNN神经网络:LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测


01

02

03

04



用回归法直观显示病例和死亡人数及其分布情况

从图中可以看出,随着病例数的增加,死亡人数也在增加。

显示出这两个特征之间的正线性关系。

#用回归法直观显示病例和死亡人数及其分布情况
sns.jointplot(x='cases' , y='deaths' , data=df, kind='reg')

image.png

Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(下):https://developer.aliyun.com/article/1498587

相关文章
|
1天前
|
存储 JSON 数据库
Python中列表数据的保存与读取:以txt文件为例
Python中列表数据的保存与读取:以txt文件为例
14 2
|
1天前
|
XML 前端开发 数据格式
BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据
【5月更文挑战第10天】BeautifulSoup 是 Python 的一个库,用于解析 HTML 和 XML 文件,即使在格式不规范的情况下也能有效工作。通过创建 BeautifulSoup 对象并使用方法如 find_all 和 get,可以方便地提取和查找文档中的信息。以下是一段示例代码,展示如何安装库、解析 HTML 数据以及打印段落、链接和特定类名的元素。BeautifulSoup 还支持更复杂的查询和文档修改功能。
21 1
|
1天前
|
存储 JSON 数据格式
Python知识点——高维数据的格式化
Python知识点——高维数据的格式化
5 0
|
1天前
|
Python
Python知识点——文件和数据格式化
Python知识点——文件和数据格式化
5 0
|
1天前
|
存储 机器学习/深度学习 数据可视化
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
8 1
|
1天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
1天前
|
JSON 数据可视化 Shell
数据结构可视化 Graphviz在Python中的使用 [树的可视化]
数据结构可视化 Graphviz在Python中的使用 [树的可视化]
11 0
|
1天前
|
存储 JSON 数据挖掘
python序列化和结构化数据详解
python序列化和结构化数据详解
13 0
|
1天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
1天前
|
数据采集 数据处理 开发者
Python 中的数据处理技巧:高效数据操作的艺术
Python 在数据处理方面表现卓越,为开发者提供了丰富的工具和库以简化数据操作。在本文中,我们将探讨 Python 中数据处理的一些技巧,包括数据清洗、数据转换以及优化数据操作的最佳实践。通过掌握这些技巧,您可以在 Python 中更加高效地处理和分析数据。