Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析

简介: Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析

Pandas是最流行的用于数据分析的 Python 库。它提供高度优化的性能,后端源代码完全用CPython编写。

我们可以通过以下方式分析 pandas 中的数据:
1.Series
2.数据帧

Series:

Series 是 pandas 中定义的一维(1-D)数组,可用于存储任何数据类型。

代码 #1:创建 Series

# 创建 Series 的程序
# 导入 Panda 库
import pandas as pd
# 使用数据和索引创建 Series
a = pd.Series(Data, index = Index)

在这里,数据可以是:

  1. 一个标量值,可以是 integerValue、字符串
  2. 可以是键值对的Python 字典
  3. 一个Ndarray

注意:默认情况下,索引从 0、1、2、...(n-1) 开始,其中 n 是数据长度。


代码 #2:当 Data 包含标量值时

# 使用标量值创建 Series 的程序
# 数值数据
Data =[1, 3, 4, 5, 6, 2, 9]
# 使用默认索引值创建系列
s = pd.Series(Data) 
# 预定义的索引值
Index =['a', 'b', 'c', 'd', 'e', 'f', 'g']
# 创建具有预定义索引值的系列
si = pd.Series(Data, Index)

输出

image.png

具有默认索引的标量数据

image.png

带索引的标量数据

代码#3:当数据包含字典时

# 创建词典 Series 程序
dictionary ={'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
# 创建字典类型 Series
sd = pd.Series(dictionary)

输出

image.png

字典类型数据

代码 #4:当 Data 包含 Ndarray

# 创建 ndarray series 的程序
# 定义二维数组
Data =[[2, 3, 4], [5, 6, 7]]
# 创建一系列二维数组
snd = pd.Series(Data)

输出

image.png

数据作为 Ndarray

数据框:

DataFrames是 pandas 中定义的二维(2-D)数据结构,由行和列组成。

代码 #1:创建 DataFrame

# 创建 DataFrame 的程序
# 导入库
import pandas as pd
# 使用数据创建 DataFrame
a = pd.DataFrame(Data)

在这里,数据可以是:

  1. 一本或多本词典
  2. 一个或多个Series
  3. 2D-numpy Ndarray

 

代码 #2:当数据是字典时

# 使用两个字典创建数据框的程序
# 定义字典 1
dict1 ={'a':1, 'b':2, 'c':3, 'd':4}
# 定义字典 2
dict2 ={'a':5, 'b':6, 'c':7, 'd':8, 'e':9}
# 用 dict1 和 dict2 定义数据
Data = {'first':dict1, 'second':dict2}
# 创建数据框
df = pd.DataFrame(Data)

输出

image.png

带有两个字典的 DataFrame

代码 #3:当数据是Series时

# 创建三个系列的Dataframe的程序
import pandas as pd
# 定义 series 1
s1 = pd.Series([1, 3, 4, 5, 6, 2, 9])
# 定义 series 2
s2 = pd.Series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3])
# 定义 series 3
s3 = pd.Series(['a', 'b', 'c', 'd', 'e']) 
# 定义 Data
Data ={'first':s1, 'second':s2, 'third':s3}
# 创建 DataFrame
dfseries = pd.DataFrame(Data)

输出

image.png

三个 Series 的 DataFrame

 

代码 #4:当 Data 为 2D-numpy ndarray

注意:在创建 2D 数组的 DataFrame 时必须保持一个约束 - 2D 数组的维度必须相同。

# 从二维数组创建 DataFrame 的程序
# 导入库
import pandas as pd
# 定义 2d 数组 1
d1 =[[2, 3, 4], [5, 6, 7]]
# 定义 2d 数组 2
d2 =[[2, 4, 8], [1, 3, 9]]
# 定义 Data
Data ={'first': d1, 'second': d2}
# 创建 DataFrame
df2d = pd.DataFrame(Data)

输出

image.png

带有 2d ndarray 的 DataFrame

目录
相关文章
|
8天前
|
人工智能 数据可视化 数据挖掘
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
|
13天前
|
存储 数据挖掘 数据库
【Python】python天气数据抓取与数据分析(源码+论文)【独一无二】
【Python】python天气数据抓取与数据分析(源码+论文)【独一无二】
|
24天前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【3】体检数据分析和小费数据分析
python数据分析和可视化【3】体检数据分析和小费数据分析
32 0
|
24天前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【1】
python数据分析和可视化【1】
38 0
|
21天前
|
BI 数据处理 索引
Pandas基本操作:Series和DataFrame(Python)
Pandas基本操作:Series和DataFrame(Python)
86 1
|
24天前
|
数据可视化 数据挖掘 BI
python数据分析和可视化【2】鸢尾花数据分析
python数据分析和可视化【2】鸢尾花数据分析
32 0
|
5天前
|
数据采集 数据可视化 数据挖掘
深入浅出:使用Python进行数据分析
在这篇文章中,我们将探索Python在数据分析中的应用,介绍几个关键的库,如Pandas、NumPy、Matplotlib,以及如何使用它们进行有效的数据处理和可视化。本文旨在为初学者提供一个清晰、简洁的指南,让读者能够快速掌握使用Python进行数据分析的基本技能,并通过一个实例加深理解。不同于其他文章的冗长解释和复杂示例,我们将以最直接、易懂的方式,让你迅速上手,即使是完全没有编程背景的读者也能轻松跟上。
|
3天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
6天前
|
数据采集 数据挖掘 数据处理
Pandas库在数据分析中的作用
【4月更文挑战第9天】Pandas,一个基于NumPy的数据分析Python库,以强大的数据处理和便捷的接口闻名。它包含两个核心数据结构:Series(一维标签数组)和DataFrame(二维表格)。Pandas支持数据导入/导出(如CSV、Excel),数据清洗(处理缺失值和重复值),描述性统计分析,分组聚合,以及与Matplotlib等库集成实现数据可视化。通过多索引和层次化索引,Pandas能灵活处理复杂数据集,是数据科学领域的关键工具。本文旨在帮助读者理解并运用Pandas进行高效数据分析。
|
8天前
|
机器学习/深度学习 数据可视化 算法
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】