全文链接:https://tecdat.cn/?p=33536
自2019年12月以来,传染性冠状病毒疾病2019(COVID-19)迅速席卷全球,并在短短几个月内达到了大流行状态(点击文末“阅读原文”获取完整代码数据)。
迄今为止,全球已报告了超过6800万例病例。为了应对这一大流行病,实施了公共卫生政策,通过实施“居家令”政策来减缓COVID-19的传播。
因此,为了检查全球范围内采取的限制措施对人员流动性的有效性,我们帮助客户研究死亡人数与时间的关系。
问题陈述:
该项目的目标是分析各国政府采取的各种限制措施对人员流动性的影响,以控制COVID-19病例和由此导致的死亡人数对经济和失业率的影响。我们使用汇率数据来查看这些限制措施对经济的影响,并在此期间检查失业率的变化。我们开发了一个模型来预测由于病例增加而导致的COVID-19相关死亡人数。
使用 read csv 读取数据,然后使用数据可视化探索数据
df.columns
数据信息
-数据集中的分类变量:dateRep、countriesAndTerritories、geoId、countryterritoryCode、continentExp -数据集中的无限变量:日、月、年、病例数、死亡数、popData2019、Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
df.info()
数据集中有 49572 个观测值和 12 个特征值
df.shape
Out[7]:
(49572, 12)
In [8]:
#属性/特征之间的相关性 df.corr()
#数据集说明 df.describe()
每天的 14 天累计病例数、病例数和死亡数。
2783 14 天累计病例数不为零的天数
报告的 14 天累计病例数为零的天数。
报告的 14 天累计死亡人数为零的天数。
# 数据清洗-检查是否存在空值 df.isnull() # 这些似乎是数据集中的真实读数,因此将其从数据集中删除可能会改变分析结果。所以保持原样。 print(df["Cumulative_number_for_14_days_of_COVID-19_cases_per_100000"].isnull().value_counts()) # 2783天中没有累积14天病例为零
#可视化 import seaborn as sns
In [107]:
df.columns
# 该函数接受特征/列名作为输入。 # 绘制特征在天数和月份上的计数情况。 def plots_days_mnths(x): plt.figure(figsize = (30,20)) feature = ['day','month']
- 病例数的日分析和月分析
- 从病例图中我们可以看出,报告病例从 1 月份开始迅速增加,到 2020 年 7 月至 9 月达到最高峰。
- 而各月每天的报告病例数大致相等。
plots_days
最初几个月报告的死亡病例有所增加,但从图中可以看出,自 7 月份以来已得到控制。每月各天的报告死亡病例数大体相当,但略有不同。
plots_days_m
import numpy as np
截至 2010 年 10 月,全世界报告的病例总数约为 39400032 例。
df['cases'].sum()
plt.ylabel('Counts', fontsize =14) plt.title("Histogram of cases ", fontsize = 16)
Out[114]:
[0, 100000, 0, 100]
在大多数情况下,每天报告的死亡人数在 500 人及以下。在大多数天数中,约有 50%的天数每天报告的新病例超过 40000 例。全世界平均每天报告的死亡人数约为 795 人,平均每天报告的死亡人数为 23 人。
df[['deaths', 'cases']].mean(axis = 0, skipna = True)
截至 2010 年 10 月,全世界报告的死亡总人数约为 1105353 人
df['deaths'].sum()
plt.xlabel('deaths', fontsize = 14) plt.ylabel('Counts', fontsize =14)
# 将日期列转换为日期时间格式,以便绘制图表。 date = pd.to_datetime(df['dateRep']) plt.figure(figsize =(15,10))
点击标题查阅往期内容
Python用RNN神经网络:LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测
01
02
03
04
用回归法直观显示病例和死亡人数及其分布情况
从图中可以看出,随着病例数的增加,死亡人数也在增加。
显示出这两个特征之间的正线性关系。
#用回归法直观显示病例和死亡人数及其分布情况 sns.jointplot(x='cases' , y='deaths' , data=df, kind='reg')
Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(下):https://developer.aliyun.com/article/1498587