Python 教程之 Pandas(1)—— Pandas 数据框

简介: Python 教程之 Pandas(1)—— Pandas 数据框

aFrame是具有标记轴(行和列)的二维大小可变、可能异构的表格数据结构。数据框是一种二维数据结构,即数据以表格的方式在行和列中对齐。Pandas DataFrame 由三个主要组件组成,即数据

创建 Pandas 数据框

在现实世界中,将通过从现有存储中加载数据集来创建 Pandas DataFrame,存储可以是 SQL 数据库、CSV 文件和 Excel 文件。。Pandas DataFrame 可以从列表、字典和字典列表等中创建。Dataframe 可以通过不同的方式创建,以下是我们创建数据框的一些方法:

使用 List 创建数据框: 可以使用单个列表或列表列表创建数据框。

# import pandas as pd
import pandas as pd
# 字符串列表
lst = ['Geeks', 'For', 'Geeks', 'is', 
            'portal', 'for', 'Geeks']
# 在列表中调用 DataFrame 构造函数
df = pd.DataFrame(lst)
print(df)

输出:

image.png

从 ndarray/lists 的 dict创建 DataFrame : 要从 narray/list 的 dict 创建 DataFrame,所有的 narray 必须具有相同的长度。如果传递了索引,则长度索引应等于数组的长度。如果没有传递索引,则默认情况下,索引将是 range(n),其中 n 是数组长度。

# Python 代码演示了从 dict narray / lists 默认地址创建 DataFrame。
import pandas as pd
# 初始化列表的数据。
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}
# 创建数据框
df = pd.DataFrame(data)
# 打印输出。
print(df)

在 IDE 上运行

输出:

image.png

处理行和列

数据框是一种二维数据结构,即数据以表格的方式在行和列中对齐。我们可以对行/列执行基本操作,例如选择、删除、添加和重命名。

列选择: 为了在 Pandas DataFrame 中选择一列,我们可以通过列名调用它们来访问这些列。

# Import pandas package
import pandas as pd
# 定义包含员工数据的字典
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}
# 将字典转换为 DataFrame
df = pd.DataFrame(data)
# 选择两列
print(df[['Name', 'Qualification']])

在 IDE 上运行

输出:

image.png


行选择:  Pandas 提供了一种从数据框中检索行的独特方法。DataFrame.loc[]方法用于从 Pandas DataFrame 中检索行。也可以通过将整数位置传递给iloc[]函数来选择行。

注意: 我们将nba.csv在下面的示例中使用文件。

# importing pandas package
import pandas as pd
# 从csv文件制作数据框
data = pd.read_csv("nba.csv", index_col ="Name")
# 通过 loc 方法检索行
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]
print(first, "\n\n\n", second)

输出:

如输出图像所示,由于两次都只有一个参数,因此返回了两个系列。

image.png

索引和选择数据

pandas 中的索引意味着只需从 DataFrame 中选择特定的数据行和列。索引可能意味着选择所有行和一些列,一些行和所有列,或每行和列中的一些。索引也可以称为子集选择

使用索引运算符索引数据框[]

索引运算符用于引用对象后面的方括号。和索引器.loc.iloc使用索引运算符进行选择。在这个索引运算符中要引用 df[]。

选择单个列

为了选择单个列,我们只需将列名放在括号之间

# importing pandas package
import pandas as pd
# 从csv文件制作数据框
data = pd.read_csv("nba.csv", index_col ="Name")
# 通过索引运算符检索列
first = data["Age"] 
print(first)

输出:

image.png


使用 索引 DataFrame .loc[ ]

此函数通过行和列的标签选择数据。 df.loc索引器以不同于索引运算符的方式选择数据。它可以选择行或列的子集。它还可以同时选择行和列的子集。

选择单行

为了使用 选择单行,我们在函数.loc[]中放置了单行标签。.loc

# importing pandas package
import pandas as pd
# 从csv文件制作数据框
data = pd.read_csv("nba.csv", index_col ="Name")
# 通过 loc 方法检索行
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]
print(first, "\n\n\n", second)

输出:

如输出图像所示,由于两次都只有一个参数,因此返回了两个系列。


image.png

使用 索引 DataFrame .iloc[ ]

此函数允许我们按位置检索行和列。为了做到这一点,我们需要指定我们想要的行的位置,以及我们想要的列的位置。索引器df.iloc 非常相似,df.loc 但仅使用整数位置进行选择。

选择单行

为了使用 选择单行.iloc[],我们可以将单个整数传递给.iloc[]函数。

import pandas as pd
# 从csv文件制作数据框
data = pd.read_csv("nba.csv", index_col ="Name")
# 通过 iloc 方法检索行
row2 = data.iloc[3] 
print(row2)

输出:

image.png

处理缺失数据

当没有为一个或多个项目或整个单元提供信息时,可能会出现缺失数据。缺少数据是现实生活场景中的一个非常大的问题。缺失数据也可以指熊猫中的 NA(不可用)值。

使用isnull()andnotnull() :

检查缺失值 为了检查 Pandas DataFrame 中的缺失值,我们使用函数isnull()and notnull()。这两个函数都有助于检查值是否NaN存在。这些函数也可以在 Pandas 系列中使用,以便在系列中查找空值。

# importing pandas as pd
import pandas as pd
# importing numpy as np
import numpy as np
# 列表字典
dict = {'First Score':[100, 90, np.nan, 95],
        'Second Score': [30, 45, 56, np.nan],
        'Third Score':[np.nan, 40, 80, 98]}
# 从列表创建数据框
df = pd.DataFrame(dict)
# 使用 isnull() 函数
df.isnull()

输出:

image.png

使用fillna(),replace()interpolate() :

填充缺失值为了填充数据集中的空值,我们使用fillna(),replace()interpolate()函数这些函数将 NaN 值替换为它们自己的一些值。所有这些功能都有助于在 DataFrame 的数据集中填充空值。Interpolate() 函数基本上用于填充NA数据帧中的值,但它使用各种插值技术来填充缺失值,而不是对值进行硬编码。

# importing pandas as pd
import pandas as pd
# importing numpy as np
import numpy as np
# 列表字典
dict = {'First Score':[100, 90, np.nan, 95],
        'Second Score': [30, 45, 56, np.nan],
        'Third Score':[np.nan, 40, 80, 98]}
# 从字典创建数据框
df = pd.DataFrame(dict)
# 使用 fillna() 填充缺失值
df.fillna(0)

输出:

image.png


使用删除缺失值dropna()

为了从数据框中删除空值,我们使用dropna()此功能以不同方式删除具有空值的数据集的行/列。

# importing pandas as pd
import pandas as pd
# importing numpy as np
import numpy as np
# 列表字典
dict = {'First Score':[100, 90, np.nan, 95],
        'Second Score': [30, np.nan, 45, 56],
        'Third Score':[52, 40, 80, 98],
        'Fourth Score':[np.nan, np.nan, np.nan, 65]}
# 从字典创建数据框
df = pd.DataFrame(dict)
df

image.png

现在我们删除具有至少一个 Nan 值(Null 值)的行

# importing pandas as pd
import pandas as pd
# importing numpy as np
import numpy as np
# 列表字典
dict = {'First Score':[100, 90, np.nan, 95],
        'Second Score': [30, np.nan, 45, 56],
        'Third Score':[52, 40, 80, 98],
        'Fourth Score':[np.nan, np.nan, np.nan, 65]}
# 从字典创建数据框
df = pd.DataFrame(dict)
# 使用 dropna() 函数  
df.dropna()

输出:

image.png

遍历行和列

迭代是一个通用术语,用于一个接一个地获取某物的每一项。Pandas DataFrame 由行和列组成,因此,为了迭代数据帧,我们必须像字典一样迭代数据帧。

对行进行迭代:

为了对行进行迭代,我们可以使用三个函数iteritems(), iterrows(), itertuples() 。这三个函数将有助于对行进行迭代。

# importing pandas as pd
import pandas as pd
# 列表字典
dict = {'name':["aparna", "pankaj", "sudhir", "Geeku"],
        'degree': ["MBA", "BCA", "M.Tech", "MBA"],
        'score':[90, 40, 80, 98]}
# 从字典创建数据框
df = pd.DataFrame(dict)
print(df)

image.png

现在我们应用iterrows()函数来获取行的每个元素。

# importing pandas as pd
import pandas as pd
# 列表字典
dict = {'name':["aparna", "pankaj", "sudhir", "Geeku"],
        'degree': ["MBA", "BCA", "M.Tech", "MBA"],
        'score':[90, 40, 80, 98]}
# 从字典创建数据框
df = pd.DataFrame(dict)
# 使用 iterrows() 函数遍历行
for i, j in df.iterrows():
    print(i, j)
    print()

输出:

image.png

迭代列:

为了迭代列,我们需要创建一个数据框列的列表,然后遍历该列表以提取数据框列。

# importing pandas as pd
import pandas as pd
# 列表字典
dict = {'name':["aparna", "pankaj", "sudhir", "Geeku"],
        'degree': ["MBA", "BCA", "M.Tech", "MBA"],
        'score':[90, 40, 80, 98]}
# 从字典创建数据框 
df = pd.DataFrame(dict)
# 使用 iterrows() 函数遍历行
for i, j in df.iterrows():
    print(i, j)
    print()

在 IDE 上运行

image.png

现在我们遍历列为了遍历列,我们首先创建一个数据框列的列表,然后遍历列表。

# importing pandas as pd
import pandas as pd
# 列表字典
dict = {'name':["aparna", "pankaj", "sudhir", "Geeku"],
        'degree': ["MBA", "BCA", "M.Tech", "MBA"],
        'score':[90, 40, 80, 98]}
# 从字典创建数据框
df = pd.DataFrame(dict)
print(df)

输出:

image.png

数据框方法:

image.png

image.png

image.png

image.png

目录
相关文章
|
1天前
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
12 5
|
3天前
|
Python
SciPy 教程 之 SciPy 模块列表 13
SciPy教程之SciPy模块列表13:单位类型。常量模块包含多种单位,如公制、二进制(字节)、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例代码展示了如何使用`constants`模块获取零摄氏度对应的开尔文值(273.15)和华氏度与摄氏度的转换系数(0.5556)。
8 1
|
5天前
|
Python
SciPy 教程 之 SciPy 模块列表 9
SciPy教程之常量模块介绍,涵盖多种单位类型,如公制、质量、角度、时间、长度、压强等。示例展示了如何使用`scipy.constants`模块查询不同压强单位对应的帕斯卡值,包括atm、bar、torr、mmHg和psi。
8 1
|
1天前
|
Python
SciPy 教程 之 SciPy 模块列表 16
SciPy教程之SciPy模块列表16 - 单位类型。常量模块包含多种单位,如公制、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例代码展示了力学单位的使用,如牛顿、磅力和千克力等。
4 0
|
2天前
|
JavaScript Python
SciPy 教程 之 SciPy 模块列表 15
SciPy 教程之 SciPy 模块列表 15 - 功率单位。常量模块包含多种单位,如公制、质量、时间等。功率单位中,1 瓦特定义为 1 焦耳/秒,表示每秒转换或耗散的能量速率。示例代码展示了如何使用 `constants` 模块获取马力值(745.6998715822701)。
6 0
|
2天前
|
JavaScript Python
SciPy 教程 之 SciPy 模块列表 15
SciPy教程之SciPy模块列表15:单位类型。常量模块包含多种单位,如公制、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。功率单位以瓦特(W)表示,1W=1J/s。示例代码展示了如何使用`constants`模块获取马力(hp)的值,结果为745.6998715822701。
7 0
|
3天前
|
Python
SciPy 教程 之 SciPy 模块列表 13
SciPy 教程之 SciPy 模块列表 13 - 单位类型。常量模块包含多种单位:公制、二进制(字节)、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例:`constants.zero_Celsius` 返回 273.15 开尔文,`constants.degree_Fahrenheit` 返回 0.5555555555555556。
6 0
|
4天前
|
Python
SciPy 教程 之 SciPy 模块列表 11
SciPy教程之SciPy模块列表11:单位类型。常量模块包含公制单位、质量单位、角度换算、时间单位、长度单位、压强单位、体积单位、速度单位、温度单位、能量单位、功率单位、力学单位等。体积单位示例展示了不同体积单位的换算,如升、加仑、流体盎司、桶等。
8 0
|
6月前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
86 2
|
6月前
|
索引 Python
如何使用Python的Pandas库进行数据合并和拼接?
Pandas的`merge()`函数用于数据合并,如示例所示,根据'key'列对两个DataFrame执行内连接。`concat()`函数用于数据拼接,沿轴0(行)拼接两个DataFrame,并忽略原索引。
102 2

热门文章

最新文章