Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析

简介: Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析

Pandas是最流行的用于数据分析的 Python 库。它提供高度优化的性能,后端源代码完全用CPython编写。

我们可以通过以下方式分析 pandas 中的数据:
1.Series
2.数据帧

Series:

Series 是 pandas 中定义的一维(1-D)数组,可用于存储任何数据类型。

代码 #1:创建 Series

# 创建 Series 的程序
# 导入 Panda 库
import pandas as pd
# 使用数据和索引创建 Series
a = pd.Series(Data, index = Index)

在这里,数据可以是:

  1. 一个标量值,可以是 integerValue、字符串
  2. 可以是键值对的Python 字典
  3. 一个Ndarray

注意:默认情况下,索引从 0、1、2、...(n-1) 开始,其中 n 是数据长度。


代码 #2:当 Data 包含标量值时

# 使用标量值创建 Series 的程序
# 数值数据
Data =[1, 3, 4, 5, 6, 2, 9]
# 使用默认索引值创建系列
s = pd.Series(Data) 
# 预定义的索引值
Index =['a', 'b', 'c', 'd', 'e', 'f', 'g']
# 创建具有预定义索引值的系列
si = pd.Series(Data, Index)

输出

image.png

具有默认索引的标量数据

image.png

带索引的标量数据

代码#3:当数据包含字典时

# 创建词典 Series 程序
dictionary ={'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
# 创建字典类型 Series
sd = pd.Series(dictionary)

输出

image.png

字典类型数据

代码 #4:当 Data 包含 Ndarray

# 创建 ndarray series 的程序
# 定义二维数组
Data =[[2, 3, 4], [5, 6, 7]]
# 创建一系列二维数组
snd = pd.Series(Data) 

输出

image.png

数据作为 Ndarray

数据框:

DataFrames是 pandas 中定义的二维(2-D)数据结构,由行和列组成。

代码 #1:创建 DataFrame

# 创建 DataFrame 的程序
# 导入库
import pandas as pd
# 使用数据创建 DataFrame
a = pd.DataFrame(Data)

在这里,数据可以是:

  1. 一本或多本词典
  2. 一个或多个Series
  3. 2D-numpy Ndarray

代码 #2:当数据是字典时

# 使用两个字典创建数据框的程序
# 定义字典 1
dict1 ={'a':1, 'b':2, 'c':3, 'd':4}
# 定义字典 2
dict2 ={'a':5, 'b':6, 'c':7, 'd':8, 'e':9}
# 用 dict1 和 dict2 定义数据
Data = {'first':dict1, 'second':dict2}
# 创建数据框
df = pd.DataFrame(Data)

输出

image.png

带有两个字典的 DataFrame

代码 #3:当数据是Series时

# 创建三个系列的Dataframe的程序
import pandas as pd
# 定义 series 1
s1 = pd.Series([1, 3, 4, 5, 6, 2, 9])
# 定义 series 2
s2 = pd.Series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3])
# 定义 series 3
s3 = pd.Series(['a', 'b', 'c', 'd', 'e']) 
# 定义 Data
Data ={'first':s1, 'second':s2, 'third':s3}
# 创建 DataFrame
dfseries = pd.DataFrame(Data)     

输出

image.png

三个 Series 的 DataFrame

 

代码 #4:当 Data 为 2D-numpy ndarray

注意:在创建 2D 数组的 DataFrame 时必须保持一个约束 - 2D 数组的维度必须相同。

# 从二维数组创建 DataFrame 的程序
# 导入库
import pandas as pd
# 定义 2d 数组 1
d1 =[[2, 3, 4], [5, 6, 7]]
# 定义 2d 数组 2
d2 =[[2, 4, 8], [1, 3, 9]]
# 定义 Data
Data ={'first': d1, 'second': d2}
# 创建 DataFrame
df2d = pd.DataFrame(Data) 

输出

image.png

带有 2d ndarray 的 DataFrame

目录
相关文章
|
1天前
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
12 3
|
11天前
|
JSON 数据可视化 API
Python 中调用 DeepSeek-R1 API的方法介绍,图文教程
本教程详细介绍了如何使用 Python 调用 DeepSeek 的 R1 大模型 API,适合编程新手。首先登录 DeepSeek 控制台获取 API Key,安装 Python 和 requests 库后,编写基础调用代码并运行。文末包含常见问题解答和更简单的可视化调用方法,建议收藏备用。 原文链接:[如何使用 Python 调用 DeepSeek-R1 API?](https://apifox.com/apiskills/how-to-call-the-deepseek-r1-api-using-python/)
|
22天前
|
IDE 测试技术 项目管理
【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!
PyCharm是由JetBrains开发的Python集成开发环境(IDE),专为Python开发者设计,支持Web开发、调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试和版本控制等功能。它有专业版、教育版和社区版三个版本,其中社区版免费且适合个人和小型团队使用,包含基本的Python开发功能。安装PyCharm前需先安装Python解释器,并配置环境变量。通过简单的步骤即可在PyCharm中创建并运行Python项目,如输出“Hello World”。
197 13
【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!
|
1月前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
47 2
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
81 22
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
154 73
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
137 71
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
93 5
|
2月前
|
数据可视化 DataX Python
Seaborn 教程-绘图函数
Seaborn 教程-绘图函数
87 8
|
2月前
|
Python
Seaborn 教程-模板(Context)
Seaborn 教程-模板(Context)
57 4

推荐镜像

更多