Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(上)

简介: Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化

全文链接:https://tecdat.cn/?p=33536


自2019年12月以来,传染性冠状病毒疾病2019(COVID-19)迅速席卷全球,并在短短几个月内达到了大流行状态点击文末“阅读原文”获取完整代码数据


迄今为止,全球已报告了超过6800万例病例。为了应对这一大流行病,实施了公共卫生政策,通过实施“居家令”政策来减缓COVID-19的传播。

因此,为了检查全球范围内采取的限制措施对人员流动性的有效性,我们帮助客户研究死亡人数与时间的关系。

问题陈述:

该项目的目标是分析各国政府采取的各种限制措施对人员流动性的影响,以控制COVID-19病例和由此导致的死亡人数对经济和失业率的影响。我们使用汇率数据来查看这些限制措施对经济的影响,并在此期间检查失业率的变化。我开发了一个模型来预测由于病例增加而导致的COVID-19相关死亡人数。

image.png

使用 read csv 读取数据,然后使用数据可视化探索数据

df.columns

image.png

数据信息


-数据集中的分类变量:dateRep、countriesAndTerritories、geoId、countryterritoryCode、continentExp -数据集中的无限变量:日、月、年、病例数、死亡数、popData2019、Cumulative_number_for_14_days_of_COVID-19_cases_per_100000

df.info()

image.png

数据集中有 49572 个观测值和 12 个特征值

df.shape

Out[7]:

(49572, 12)

In [8]:

#属性/特征之间的相关性
 
df.corr()

image.png

#数据集说明
 
df.describe()

image.png

每天的 14 天累计病例数、病例数和死亡数。

2783 14 天累计病例数不为零的天数

报告的 14 天累计病例数为零的天数。

报告的 14 天累计死亡人数为零的天数。

# 数据清洗-检查是否存在空值
df.isnull()
# 这些似乎是数据集中的真实读数,因此将其从数据集中删除可能会改变分析结果。所以保持原样。
print(df["Cumulative_number_for_14_days_of_COVID-19_cases_per_100000"].isnull().value_counts()) # 2783天中没有累积14天病例为零

image.png

#可视化
import seaborn as sns

In [107]:

df.columns

image.png

# 该函数接受特征/列名作为输入。
# 绘制特征在天数和月份上的计数情况。
def plots_days_mnths(x):
    
    plt.figure(figsize = (30,20))
    feature = ['day','month']
  • 病例数的日分析和月分析
  • 从病例图中我们可以看出,报告病例从 1 月份开始迅速增加,到 2020 年 7 月至 9 月达到最高峰。
  • 而各月每天的报告病例数大致相等。
plots_days

image.png

最初几个月报告的死亡病例有所增加,但从图中可以看出,自 7 月份以来已得到控制。每月各天的报告死亡病例数大体相当,但略有不同。

plots_days_m

image.png

import numpy as np

截至 2010 年 10 月,全世界报告的病例总数约为 39400032 例。

df['cases'].sum()

image.png

plt.ylabel('Counts', fontsize =14)
plt.title("Histogram of cases ", fontsize = 16)

Out[114]:

[0, 100000, 0, 100]

image.png

在大多数情况下,每天报告的死亡人数在 500 人及以下。在大多数天数中,约有 50%的天数每天报告的新病例超过 40000 例。全世界平均每天报告的死亡人数约为 795 人,平均每天报告的死亡人数为 23 人。

df[['deaths', 'cases']].mean(axis = 0, skipna = True)

image.png

截至 2010 年 10 月,全世界报告的死亡总人数约为 1105353 人

df['deaths'].sum()

image.png

plt.xlabel('deaths', fontsize = 14)
plt.ylabel('Counts', fontsize =14)

image.png

image.png

# 将日期列转换为日期时间格式,以便绘制图表。
date = pd.to_datetime(df['dateRep']) 
plt.figure(figsize =(15,10))

image.png

image.png

点击标题查阅往期内容


Python用RNN神经网络:LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测


01

02

03

04



用回归法直观显示病例和死亡人数及其分布情况

从图中可以看出,随着病例数的增加,死亡人数也在增加。

显示出这两个特征之间的正线性关系。

#用回归法直观显示病例和死亡人数及其分布情况
sns.jointplot(x='cases' , y='deaths' , data=df, kind='reg')

image.png

Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(下):https://developer.aliyun.com/article/1498587

相关文章
|
7月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
7月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
7月前
|
机器学习/深度学习 搜索推荐 数据可视化
基于python大数据的音乐可视化与推荐系统
本研究基于Python实现音乐数据采集、清洗、分析与可视化,并结合协同过滤算法构建个性化推荐系统。通过Echarts展示音乐热度及用户偏好,提升用户体验,助力音乐产业智能化发展。
|
安全 数据处理 索引
Python 告诉你疫情扩散有多可怕
Python 告诉你疫情扩散有多可怕
249 0
Python 告诉你疫情扩散有多可怕
|
7月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
1055 102
|
7月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
435 104
|
7月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
342 103
|
7月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
306 82

推荐镜像

更多