Pandas 数据合并与整形1|学习笔记

简介: 快速学习 Pandas 数据合并与整形1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践Pandas 数据合并与整形1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15391


Pandas 数据合并与整形1

下面来学习一下 Panda s的第四个内容:数据合并与整形,第一部分有三节,第一部分里面有整体介绍

Data Wrangling: Join, Combine,and Reshape(数据加工整理:连接,合并,整形)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。这一章主要关注工具,能帮我们 combine,join , rearrange数据。
(1)中的操作名
join:连接
combine:合并
reshape:整形
(2)中的操作名
merge:归并
concatenate:串联
concatenate:串联
(3)中的操作名
pivot:旋转,透视
stack:堆叠

(4)Hierarchical Indexing (分层索引)
Hierarchical Indexing 是 pandas 中一个重要的特性,能让我们在一个轴(axis),也就是行或者是列上有多个 index levels  (索引层级),比如说第一级索引,第二级索引……第n级索引。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子,构建一个 series,其 index 是 a list of lists (嵌套列表):
import pandas as pd
import numpy as np
data = pd .Series(np .random .randn (9),//构造series,随机9个数
index=[[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d'],[1,2,3,1,3,1,2,2,3]])//中括号里是索引,中括号里又有中括号表示多级索引,[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d']表示第一级索引,[1,2,3,1,3,1,2,2,3]表示第二级索引,当然更多时候从零开始,第零级索引,第一级索引
data
a

1   0.958453
2  -2.237030

3  0.271493

b

1  0.604374
3 -0.112334

c

1  1.112763

2 -0.321422

d  2 -0.331968

3 0.392504// abcd 表示第零级索引,第二列表示第一级索引

dtype:float64

其中我们看到的是把 Multilndex 作为 index (索引)的。层次索引

多级索引一般被称为 Multilndex ,接下来来查一下它的

data.index

MultiIndex([(‘a’,1),

(‘a’,2),

(‘a’,3),

(‘b’,1),

(‘b’,3),

(‘c’,1),

(‘c’,2),

(‘d’,2),

(‘d’,3)],//每一个是一个小元组

对于这种分层索引对象,partial indexing (部分索引)也是能做到的,这种方法可以让我们简洁地选中数据的一部分:
data[‘b’]
1   0.694374
3 -0.112334//将上面 b 里的值拿出来
dtype:float64
data[‘b’:‘c’]
b   1  -0.427638
3   0.663994
c  1  1.577227
2 -1.583739//取 b 和 c 的索引值,并得到结果
dtype:float64
data .loc[‘b’,’d’]]
b   1  -0.427638

3   0.663994

d   2   0.966053

3   0.236567//选择 b 和 d,第一列是零级索引,第二列是一级索引

dtype:float64
selection (选中)对于一个内部层级(inner level)也是可能的:

注意下面这个地方,这是很特别的
data.loc[:, 2] #一般中括号中的逗号,左边是行,右边是列,但对层次索引来说,有所不同,逗号左边是第一级索引,右边是第一级索引中取值是2的

a   0.521974
c -1.583739
d  0.966053//根据上面的内容可知,运行的结果是索引中取值是2的
dtype:float64
分层索引的作用是改变数据的形状,以及做一些基于分组的操作(group-based)比如做一个数据透视表(pivot table)。例子,我们可以用unstack来把数据进行重新排列,产生一个 DataFrame (数据框):

data.unstack()

1         2 3
a   2.015673   -2.237030   0.271493
b   0.604374      NaN     -0.112334
c   1.112763   -0.321422     NaN
d        NaN   -0.331968   0.392504//运行发现第零级索引作为行索引,第一级索引作为列的名字

frame
state Ohio Colorado
colorGreenRed Green
key1 key2
1 0 1 2
2 3 4 5
1 6 7 8
2 9 10 11

这里我们要注意区分行标签(rowlabel)中索引的名字

相反的操作是stack:
data.unstack().stack()
a 1 2.015673
2 -2.237030

3 0.271493
b 1 0.604374
3 -0.112334
c  1 1.112763
2 -0.321422
d 2 -0.331968
3   0.392504//还原成原来的层次索引
dtype:float64
之后的章节会对unstack和stack做更多介绍。
对于dataframe,任何一个axis(轴)都可以有一个分层索引:

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),      index=[[‘a’, ‘a’, ‘b’, ‘b’], [1, 2, 1, 2]],
columns=[[‘Ohio’, ‘Ohio’, ‘Colorado’],
[‘Green’, ‘Red’, ‘Green’]]) //创建12个数据组建四行三列,他的行和列都是一个层次索引
frame
Ohio Colorado

Green Red Green
a 1        0   1   2

2      3   4    5
b 1      6   7    8
2      9   10   11

每一层级都可以有一个名字(字符串或任何python对象)。如果有的话,这些会显示在输出中:

frame.index.names =[‘key1’, ‘key2’]
frame.columns.names =[‘state’,‘color’]

Frame

state Ohio Colorado

color Green Red Green

key1 key2

1      0    1   2

a
2      3    4   5

1      6    7   8

b2      9    10  11

这里我们要注意区分行标签(row label)中索引的名字‘state’,‘color’。

如果想要选中部分列(partial column indexing)的话,可以选中一组列(groups of columns):

frame[‘Ohio’]

color  Green  Red

key1 key2
1    0      1
a
2    3      4
1    6     7

B

2   9      10 //可以到上面找相应的数据对应一下

Multilndex能被同名函数创建,而且可以重复被使用;在 DataFrame中给列创建层级名可以通过以下方式:
pd.MultiIndex.from_arrays([[‘Ohio’,‘Ohio’,‘Colorado’],[‘Green’, ‘Red’, ‘ Green’]],
names=[‘’state’,  ‘color’])
MultiIndex([(‘Ohio’, ‘Green’),
(‘Ohio’, ‘Red’),

(‘Colorado’, ‘Green’ )],
names=[‘state’, ‘color’ ])

相关文章
|
9天前
|
索引 Python
Pandas学习笔记之时间处理
Pandas学习笔记之时间处理
|
9天前
|
索引 Python
Pandas学习笔记之Dataframe
Pandas学习笔记之Dataframe
|
9天前
|
索引 Python
Pandas学习笔记之Series
Pandas学习笔记之Series
|
10天前
|
存储 移动开发 测试技术
在pandas中利用hdf5高效存储数据
在pandas中利用hdf5高效存储数据
|
9天前
|
SQL Serverless 数据库
Pandas学习笔记之常用功能
Pandas学习笔记之常用功能
|
9天前
|
数据采集 分布式计算 并行计算
Dask与Pandas:无缝迁移至分布式数据框架
【8月更文第29天】Pandas 是 Python 社区中最受欢迎的数据分析库之一,它提供了高效且易于使用的数据结构,如 DataFrame 和 Series,以及大量的数据分析功能。然而,随着数据集规模的增大,单机上的 Pandas 开始显现出性能瓶颈。这时,Dask 就成为了一个很好的解决方案,它能够利用多核 CPU 和多台机器进行分布式计算,从而有效地处理大规模数据集。
34 1
|
9天前
|
索引 Python
python pandas 把数据保存成csv文件,以及读取csv文件获取指定行、指定列数据
该文档详细介绍了如何使用Python的Pandas库处理图像数据集,并将其保存为CSV文件。示例数据集位于`test_data`目录中,包含5张PNG图片,每张图片名中的数字代表其标签。文档提供了将这些数据转换为CSV格式的具体步骤,包括不同格式的数据输入方法(如NumPy数组、嵌套列表、嵌套元组和字典),以及如何使用`pd.DataFrame`和`to_csv`方法保存数据。此外,还展示了如何读取CSV文件并访问其中的每一行和每一列数据,包括获取列名、指定列数据及行数据的操作方法。
19 1
|
10天前
|
数据可视化 Python
Pandas可视化指南:从零教你绘制数据图表
Pandas可视化指南:从零教你绘制数据图表
|
23天前
|
Python
Pandas 读取Eexcel - 间隔N行,读取某列数据
Pandas 读取Eexcel - 间隔N行,读取某列数据
23 0
|
1月前
|
Python
【Pandas】Pandas的DataFrame按行插入list数据或者读取一行并存为csv文件
本文提供了使用Pandas库对DataFrame进行操作的示例代码。
51 0
下一篇
DDNS