python数据分析和可视化——一篇文章足以(未完成)-3

简介: python数据分析和可视化——一篇文章足以(未完成)

异常值处理


缺失数据在大部分数据分析应用中都很常见,Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松  Pandas使用浮点值NaN(Not a umber)表示浮点和非浮点数组中的缺失数据  Pandas提供了专门的处理缺失数据的函数:



image.pngimage.png


image.png


import pandas as pd
import numpy as np
data = pd.Series(["a", np.nan, "c", "d"])
print(data.isnull()) #判断是否为空对象
data = pd.Series([1, np.nan, 3, np.nan, 7])
print(data.dropna()) #滤掉缺失数据
#通过布尔值索引滤除数据
print(data[data.notnull()])
data = pd.DataFrame([[1, 6, 5], [2, np.nan, np.nan]])
#滤除DataFrame中的缺失数据
print(data.dropna())
print(data.dropna(axis=1))


image.png


时间处理


时间序列数据是一种重要的结构化数据形式。  


在Python语言中,主要使用datatime模块来处理时间:


datetime对象间的减法运算会得到一个timedelta对象,timedelta对象代表两个时间之间的时间差。


datetime对象与它所保存的字符串格式时间戳之间可以互相转换。


在Pandas中,主要使用从Series派生出来的子类TimeStamp:


最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型。


时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。


时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。


import datetime as datetime
import pandas as pd
import numpy as np
print(pd.to_datetime(datetime.datetime.now()))
print(pd.to_datetime(np.nan))
dates = [datetime.datetime(2022,1,1),
         datetime.datetime(2022,1,2),
         datetime.datetime(2022,1,3)]
ts = pd.Series(np.random.rand(3), index=dates)
print(ts)

image.png


时间处理


import pandas as pd
print(pd.date_range("20220101", "20220108"))
print(pd.date_range(start="20220101", periods=8))
print(pd.date_range(end="20220108", periods=8))
print(pd.date_range("20220101", "20220501", freq="M"))
print(pd.date_range('20221018', '2022-10-25'))
print(pd.date_range('2022/10/18', '2022-10-25'))
print(pd.date_range('2022/10/21', '2022-10-22', freq="4H"))


image.png

文件读写


常见的文件读写有3种,


分别是一般文本文件、 CSV文件Excel文件,


Pandas提供了便利的CSV和Excel文件读写方式:  


使用to_csv()函数将DataFrame对象写入到CSV文件。


使用read_csv()函数读取CSV文件。  


使用to_excel()函数将DataFrame对象写入到CSV文件。  


使用read_excel()函数读取CSV文件。


import pandas as pd
import os
df_write = pd.DataFrame({"name": ["Alice", "Mary", "Anna"],
                         "age": ["23", "34", "28"]})
root_path = os.getcwd()
file_with_path = os.path.join(root_path, 'test.csv')
df_write.to_csv(file_with_path, index=False)
df_read = pd.read_csv(file_with_path)
print(df_read)

image.png

image.png


相关文章
|
1天前
|
Python 数据可视化 索引
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
14 0
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
|
1天前
|
存储 机器学习/深度学习 数据可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
35 6
|
1天前
|
机器学习/深度学习 数据可视化 算法
PYTHON用决策树分类预测糖尿病和可视化实例
PYTHON用决策树分类预测糖尿病和可视化实例
11 0
|
1天前
|
数据可视化 算法 Python
python中的copula:Frank、Clayton和Gumbel copula模型估计与可视化
python中的copula:Frank、Clayton和Gumbel copula模型估计与可视化
11 0
|
3天前
|
Python 数据挖掘 存储
Python 数据分析(PYDA)第三版(七)(4)
Python 数据分析(PYDA)第三版(七)
|
Python Shell 存储
Python 数据分析(PYDA)第三版(七)(3)
Python 数据分析(PYDA)第三版(七)
Python 数据分析(PYDA)第三版(七)(3)
|
机器学习/深度学习 数据可视化 Python
Python 数据分析(PYDA)第三版(六)(2)
Python 数据分析(PYDA)第三版(六)
|
机器学习/深度学习 Python 数据挖掘
Python 数据分析(PYDA)第三版(六)(1)
Python 数据分析(PYDA)第三版(六)
|
自然语言处理 数据可视化 前端开发
python可视化文本分析(1)—分析QQ班群聊天记录宏观
前一段时间就想做简单的可视化文本分析玩,今天就花点时间先对整体班级的QQ群聊天信息做一个简单的分析。
360 0
python可视化文本分析(1)—分析QQ班群聊天记录宏观
|
数据采集 存储 自然语言处理
Python爬取网站小说并可视化分析
Python爬取网站小说并可视化分析
222 0
Python爬取网站小说并可视化分析