【Pandas数据分析3】数据提取

简介: 【Pandas数据分析3】数据提取

三、数据提取

1、按行提取

1.1 loc属性

以列名(columns)和行名(index)作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列。

1.2 iloc属性

以行和列位置索引(即:0,1,2,…)作为参数,0表示第一行,1表示第二行,以此类推。

当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列。

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[45, 65, 100], [56, 45, 50], [67, 67, 67]]
index = ['张三', '李四', '王五']
columns = ['数学', '语文', '英语']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print('-------------------------')
# 提取单行数据
print(df.loc['张三'])  # 行索引名称
print(df.iloc[0])  # 行索引编号
print('-------------------------')
# 提取多行数据
print(df.loc[['张三', '王五']])
print(df.iloc[[0, 2]])
print('-------------------------')
# 提取连续多行数据
print(df.loc['张三':'王五'])  # 行索引名称,包含王五
print(df.iloc[0:2])  # 行索引编号,不包含王五
print('-------------------------')
# iloc[start:stop:step]
print(df.iloc[1::])  # 起始为1,一直到末尾
print(df.iloc[::2])  # 起始为0,步长为2
数学  语文  英语
张三    45    65   100
李四    56    45    50
王五    67    67    67
-------------------------
数学     45
语文     65
英语    100
Name: 张三, dtype: int64
数学     45
语文     65
英语    100
Name: 张三, dtype: int64
-------------------------
      数学  语文  英语
张三    45    65   100
王五    67    67    67
      数学  语文  英语
张三    45    65   100
王五    67    67    67
-------------------------
      数学  语文  英语
张三    45    65   100
李四    56    45    50
王五    67    67    67
      数学  语文  英语
张三    45    65   100
李四    56    45    50
-------------------------
      数学  语文  英语
李四    56    45    50
王五    67    67    67
      数学  语文  英语
张三    45    65   100
王五    67    67    67

2、按列提取

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[45, 65, 100], [56, 45, 50], [67, 67, 67]]
index = ['张三', '李四', '王五']
columns = ['数学', '语文', '英语']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print('-------------------------')
# 直接使用列名提取
print(df[['数学', '英语']])
print('-------------------------')
# 提取不连续的列
# [行, 列]
# 提取:所有行的数学和英语
print(df.loc[:, ['数学', '英语']])
print(df.iloc[:, [0, 2]])
print('-------------------------')
# 提取连续的列
print(df.loc[:, '语文':])
print(df.iloc[:, 1:])
数学  语文  英语
张三    45    65   100
李四    56    45    50
王五    67    67    67
-------------------------
      数学  英语
张三    45   100
李四    56    50
王五    67    67
-------------------------
      数学  英语
张三    45   100
李四    56    50
王五    67    67
      数学  英语
张三    45   100
李四    56    50
王五    67    67
-------------------------
      语文  英语
张三    65   100
李四    45    50
王五    67    67
      语文  英语
张三    65   100
李四    45    50
王五    67    67

3、提取区域数据

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[45, 65, 100], [56, 45, 50], [67, 67, 67]]
index = ['张三', '李四', '王五']
columns = ['数学', '语文', '英语']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print('-------------------------')
print(df.loc['张三', '数学'], type(df.loc['张三', '数学']))
print(df.iloc[0, 0], type(df.iloc[0, 0]))
print('-------------------------')
print(df.loc[['张三', '王五'], ['数学', '语文']])
print(df.iloc[[0, 2], [0, 2]])
print('-------------------------')
# 区域数据连续
# [行切片, 列切片]
print(df.loc['张三':'李四', '数学':'语文'])
print(df.iloc[0:2, 0:2])
print('-------------------------')
# 区域数据不连续
print(df.iloc[[0, 2], [0, 2]])  # 第0行,第2行;第0列,第2列
print('-------------------------')
print(df.iloc[:, 0])  # 所有行的第0列
数学  语文  英语
张三    45    65   100
李四    56    45    50
王五    67    67    67
-------------------------
45 <class 'numpy.int64'>
45 <class 'numpy.int64'>
-------------------------
      数学  语文
张三    45    65
王五    67    67
      数学  英语
张三    45   100
王五    67    67
-------------------------
      数学  语文
张三    45    65
李四    56    45
      数学  语文
张三    45    65
李四    56    45
-------------------------
      数学  英语
张三    45   100
王五    67    67
-------------------------
张三    45
李四    56
王五    67
Name: 数学, dtype: int64

4、提取指定条件数据

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[45, 65, 100], [56, 45, 50], [67, 67, 67]]
index = ['张三', '李四', '王五']
columns = ['数学', '语文', '英语']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print('-------------------------')
# 语文 >= 60
print(df.loc[df['语文'] >= 60])
print('-------------------------')
# 语文 >= 60 数学 >= 60
# 多个关系使用关系运算符
print(df.loc[(df['语文'] >= 60) & (df['数学'] >= 60)])
数学  语文  英语
张三    45    65   100
李四    56    45    50
王五    67    67    67
-------------------------
      数学  语文  英语
张三    45    65   100
王五    67    67    67
-------------------------
      数学  语文  英语
王五    67    67    67


目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
14 0
某A保险公司的 数据图表和数据分析
|
9天前
|
数据可视化 数据挖掘 数据处理
模型预测笔记(四):pandas_profiling生成数据报告
本文介绍了pandas_profiling库,它是一个Python工具,用于自动生成包含多种统计指标和可视化的详细HTML数据报告,支持大型数据集并允许自定义配置。安装命令为`pip install pandas_profiling`,使用示例代码`pfr = pandas_profiling.ProfileReport(data_train); pfr.to_file("./example.html")`。
18 1
|
12天前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
36 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
19天前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
30 1
|
29天前
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
59 1
|
29天前
|
数据挖掘 Python
Pandas实战(3):电商购物用户行为数据分析
Pandas实战(3):电商购物用户行为数据分析
77 1
|
29天前
|
数据挖掘 Python
Pandas实战(2):电商购物用户行为数据分析
Pandas实战(2):电商购物用户行为数据分析
45 1
|
29天前
|
数据采集 数据挖掘 数据处理
小白一文学会Pandas:数据分析的瑞士军刀
小白一文学会Pandas:数据分析的瑞士军刀
31 1
|
14天前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
53 0
|
14天前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
34 0