python数据分析和可视化——一篇文章足以(未完成)-3

简介: python数据分析和可视化——一篇文章足以(未完成)

异常值处理


缺失数据在大部分数据分析应用中都很常见,Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松  Pandas使用浮点值NaN(Not a umber)表示浮点和非浮点数组中的缺失数据  Pandas提供了专门的处理缺失数据的函数:



image.pngimage.png


image.png


import pandas as pd
import numpy as np
data = pd.Series(["a", np.nan, "c", "d"])
print(data.isnull()) #判断是否为空对象
data = pd.Series([1, np.nan, 3, np.nan, 7])
print(data.dropna()) #滤掉缺失数据
#通过布尔值索引滤除数据
print(data[data.notnull()])
data = pd.DataFrame([[1, 6, 5], [2, np.nan, np.nan]])
#滤除DataFrame中的缺失数据
print(data.dropna())
print(data.dropna(axis=1))


image.png


时间处理


时间序列数据是一种重要的结构化数据形式。  


在Python语言中,主要使用datatime模块来处理时间:


datetime对象间的减法运算会得到一个timedelta对象,timedelta对象代表两个时间之间的时间差。


datetime对象与它所保存的字符串格式时间戳之间可以互相转换。


在Pandas中,主要使用从Series派生出来的子类TimeStamp:


最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型。


时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。


时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。


import datetime as datetime
import pandas as pd
import numpy as np
print(pd.to_datetime(datetime.datetime.now()))
print(pd.to_datetime(np.nan))
dates = [datetime.datetime(2022,1,1),
         datetime.datetime(2022,1,2),
         datetime.datetime(2022,1,3)]
ts = pd.Series(np.random.rand(3), index=dates)
print(ts)

image.png


时间处理


import pandas as pd
print(pd.date_range("20220101", "20220108"))
print(pd.date_range(start="20220101", periods=8))
print(pd.date_range(end="20220108", periods=8))
print(pd.date_range("20220101", "20220501", freq="M"))
print(pd.date_range('20221018', '2022-10-25'))
print(pd.date_range('2022/10/18', '2022-10-25'))
print(pd.date_range('2022/10/21', '2022-10-22', freq="4H"))


image.png

文件读写


常见的文件读写有3种,


分别是一般文本文件、 CSV文件Excel文件,


Pandas提供了便利的CSV和Excel文件读写方式:  


使用to_csv()函数将DataFrame对象写入到CSV文件。


使用read_csv()函数读取CSV文件。  


使用to_excel()函数将DataFrame对象写入到CSV文件。  


使用read_excel()函数读取CSV文件。


import pandas as pd
import os
df_write = pd.DataFrame({"name": ["Alice", "Mary", "Anna"],
                         "age": ["23", "34", "28"]})
root_path = os.getcwd()
file_with_path = os.path.join(root_path, 'test.csv')
df_write.to_csv(file_with_path, index=False)
df_read = pd.read_csv(file_with_path)
print(df_read)

image.png

image.png


相关文章
|
3月前
|
数据采集 数据可视化 数据挖掘
Python数据分析实战:Pandas处理结构化数据的核心技巧
在数据驱动时代,结构化数据是分析决策的基础。Python的Pandas库凭借其高效的数据结构和丰富的功能,成为处理结构化数据的利器。本文通过真实场景和代码示例,讲解Pandas的核心操作,包括数据加载、清洗、转换、分析与性能优化,帮助你从数据中提取有价值的洞察,提升数据处理效率。
201 3
|
3月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
3月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
3月前
|
机器学习/深度学习 搜索推荐 数据可视化
基于python大数据的音乐可视化与推荐系统
本研究基于Python实现音乐数据采集、清洗、分析与可视化,并结合协同过滤算法构建个性化推荐系统。通过Echarts展示音乐热度及用户偏好,提升用户体验,助力音乐产业智能化发展。
|
4月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
3月前
|
搜索推荐 算法 大数据
基于python大数据的旅游景点可视化与推荐系统
本系统基于大数据与网络技术,构建个性化旅游推荐平台。通过收集用户偏好及行为数据,结合机器学习算法,提供精准的旅游目的地、住宿及交通推荐,旨在优化旅游信息传递,提升用户决策效率与旅行体验。
|
数据可视化 数据挖掘 Linux
震撼发布!Python数据分析师必学,Matplotlib与Seaborn数据可视化实战全攻略!
在数据科学领域,数据可视化是连接数据与洞察的桥梁,能让复杂的关系变得直观。本文通过实战案例,介绍Python数据分析师必备的Matplotlib与Seaborn两大可视化工具。首先,通过Matplotlib绘制基本折线图;接着,使用Seaborn绘制统计分布图;最后,结合两者在同一图表中展示数据分布与趋势,帮助你提升数据可视化技能,更好地讲述数据故事。
301 1

推荐镜像

更多