Python新冠疫情案例_02处理疫情数据中的异常以及丢失的数据

简介: Python新冠疫情案例_02处理疫情数据中的异常以及丢失的数据
import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
from datetime import datetime
plt.figure(figsize=(16,10))
import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.faker import Faker
from pyecharts.charts import Bar
import os
from pyecharts.options.global_options import ThemeType

读取整理好的数据:

alldfgbcountrysum=pd.read_csv("alldfgbcountrysum.csv",encoding='utf-8-sig')

将时间转换成datetime64[ns]

alldfgbcountrysum['Date']=pd.to_datetime(alldfgbcountrysum['Date']).dt.normalize()

绘制初始图像:

alldfgbcountrysum[['Confirmed','Date']].set_index(['Date']).plot(figsize=(20,12)) 

60ecbdcc64d44a8c9d283ee9a347a850.png46e769b350904a5d880ee2889621d7fc.png

解决异常数据以及数据丢失的问题

allDate=alldfgbcountrysum.copy()
allDate=allDate.groupby(['Date'])['Confirmed','Deaths','Recovered'].sum()
#对每天所有的确诊人数,死亡人数,治愈人数进行汇总求和
allDate=allDate.reset_index().replace()
allDate

5f8499d3611c47ccb282b8318e4218cc.png

数据当中日期的第一天:2020-2-24

数据当中日期的最后一天:2022-3-12


分析:

由于数据当中日期的第一天是:2020-2-24,从2020-2-25开始循环。24号是前一天,25号是当天,26号是后一天。

前一天确诊人数:bedata 当天确诊人数:data 后一天确诊人数:afdata


只要前一天的数据比当天的小,就说明是正常的,反之则异常,就进入循环。


异常数据当中的凸起部分:放大观察发现,异常数据是由两部分凸起组成,且第一小段的凸起大于第二小段。每小段凸起都是由一段数据构成的,在每小段凸起当中,数据仍然是增长的。

d4a8613240ef4463a49d9b27db7f28f9.png


  1. strftime()函数:如果已经有了datetime对象,要把它格式化为字符串显示给用户,就需要转换为str,转换方法是通过strftime()实现。
  2. Timestamp:时间戳,指1970年01月01日00时00分00秒起至现在的总秒数。
  3. datetime.timedelta对象代表两个时间之间的时间差,两个date或datetime对象相减就可以返回一个timedelta对象。如果有人问你昨天是几号,这个很容易就回答出来了。但是如果问你200天前是几号,则使用Python中datetime模块中的timedelta可以给出答案。
  4. datetime.date: 表示日期的类
  5. datetime.date():来比较两个日期(天数),这样可以截断datetime,使其具有天数而不是小时的分辨率。
  6. drop:使用drop删除表中的某一行或者某一列,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。
import datetime
start=datetime.date(2020,2,25) 
last=datetime.date(2022,3,12)
datalist=[] # 用来存放异常数据
for i in range((last-start).days+1):
    day=start+datetime.timedelta(days=i)# 类似一个计数器,随着循环不断增加天数。
    # 前一天
    bedata=allDate[allDate['Date']==pd.Timestamp(str(day+datetime.timedelta(days=-1)))]['Confirmed'].sum()
    # 当天
    data=allDate[allDate['Date']==pd.Timestamp(str(day))]['Confirmed'].sum()
    # 后一天
#     afdata=allDate[allDate['Date']==pd.Timestamp(str(day+datetime.timedelta(days=1)))]['Confirmed'].sum()
    # 判断数据是否异常
    if(bedata>data):# 第一次进入这个条件判断是在第一个凸起与第二个凸起交界处,因为第二个凸起比第一个凸起小
        if(bedata/2<data) & (bedata>data): # 凸出来的部分,向前找异常数据
            j=-1     
            while allDate[allDate['Date']==pd.Timestamp(str(day+datetime.timedelta(days=j)))]['Confirmed'].sum()>data:
# 此时前一天的数据大于当天的数据,进入while循环。循环的作用:找出从哪天开始,数据比当天的数据要小,则从那天开始数据就是正常的,而之间的数据就都是异常数据,把异常数据保存在datalist列表里面。
                datalist.append(str(day+datetime.timedelta(days=j))) # 把异常数据变成字符串类型并且保持到列表              
                j-=1.               
        else: #进入else说明这部分异常数据是下凹的数据,向后找异常数据
            m=0 
            print(day+datetime.timedelta(days=-1))# 打印
            while bedata>allDate[allDate['Date']==pd.Timestamp(str(day+datetime.timedelta(days=m)))]['Confirmed'].sum():
                datalist.append(str(day+datetime.timedelta(days=m)))
                m+=1 
print(datalist)
allDate['Date']=allDate['Date'].apply(lambda x:x.strftime('%Y-%m-%d')) # 将Date中的数据都变成字符串类型
for i in allDate['Date']:
    if str(i) in datalist:
        print(i)
        allDate.drop(index=allDate[allDate['Date']==i].index[0],inplace=True) # 将原始数据当中包含有datalist元素的都删除

得到的结果(也就是找到的异常数据):

2021-12-14
['2021-06-13', '2021-06-12', '2021-06-24', '2021-07-09', '2021-07-08', '2021-07-07', '2021-07-06', '2021-07-05', '2021-07-04', '2021-07-03', '2021-07-02', '2021-07-01', '2021-06-30', '2021-06-29', '2021-06-28', '2021-06-27', '2021-09-05', '2021-12-15', '2022-01-22', '2022-02-09', '2022-02-16', '2022-02-15', '2022-03-01', '2022-02-28', '2022-02-27', '2022-03-07', '2022-03-10']
2021-06-12
2021-06-13
2021-06-24
2021-06-27
2021-06-28
2021-06-29
2021-06-30
2021-07-01
2021-07-02
2021-07-03
2021-07-04
2021-07-05
2021-07-06
2021-07-07
2021-07-08
2021-07-09
2021-09-05
2021-12-15
2022-01-22
2022-02-09
2022-02-15
2022-02-16
2022-02-27
2022-02-28
2022-03-01
2022-03-07
2022-03-10
allDate=allDate.sort_values(by='Date')
import os
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.options.global_options import ThemeType
attrmax=allDate['Date']
v1=allDate['Confirmed']
bar=(Bar(
            init_opts=opts.InitOpts(bg_color='rgba(255,250,200,0.2)',
                                   width='1500px',
                                   height='800px',
                                   page_title='疫情数据',
                                   theme=ThemeType.ROMA
            )
        )
     .add_xaxis(attrmax.to_list())
     .add_yaxis("人数",v1.to_list(),stack='stack1')
     .set_global_opts(title_opts=opts.TitleOpts(title="世界疫情数据"),
                     xaxis_opts=opts.AxisOpts(name='日期',axislabel_opts={"rotate":50}),
                     yaxis_opts=opts.AxisOpts(name='确诊人数:人'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
     )
bar.render_notebook()
55ae89644d3e4ba7a1bc87f5dd013879.png


相关文章
|
6天前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
从零开始:用Python爬取网站的汽车品牌和价格数据
|
1天前
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
22 12
|
1月前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
数据采集 JSON 前端开发
我用 Python 做了一个全球疫情数据大屏
我用 Python 做了一个全球疫情数据大屏
457 0
我用 Python 做了一个全球疫情数据大屏
|
2月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
126 80
|
23天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
58 5
Python高性能编程:五种核心优化技术的原理与Python代码

热门文章

最新文章

推荐镜像

更多