开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:Pandas 数据合并与整形1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15391
Pandas 数据合并与整形1
下面来学习一下 Panda s的第四个内容:数据合并与整形,第一部分有三节,第一部分里面有整体介绍
Data Wrangling: Join, Combine,and Reshape(数据加工整理:连接,合并,整形)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。这一章主要关注工具,能帮我们 combine,join , rearrange数据。
(1)中的操作名
join:连接
combine:合并
reshape:整形
(2)中的操作名
merge:归并
concatenate:串联
concatenate:串联
(3)中的操作名
pivot:旋转,透视
stack:堆叠
(4)Hierarchical Indexing (分层索引)
Hierarchical Indexing 是 pandas 中一个重要的特性,能让我们在一个轴(axis),也就是行或者是列上有多个 index levels (索引层级),比如说第一级索引,第二级索引……第n级索引。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子,构建一个 series,其 index 是 a list of lists (嵌套列表):import pandas as pd
import numpy as np
data = pd .Series(np .random .randn (9)
,//构造series,随机9个数index=[[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d'],[1,2,3,1,3,1,2,2,3]])
//中括号里是索引,中括号里又有中括号表示多级索引,[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d']表示第一级索引,[1,2,3,1,3,1,2,2,3]表示第二级索引,当然更多时候从零开始,第零级索引,第一级索引data
a
1 0.958453
2 -2.237030
3 0.271493
b
1 0.604374
3 -0.112334
c
1 1.112763
2 -0.321422
d 2 -0.331968
3 0.392504
// abcd 表示第零级索引,第二列表示第一级索引
dtype:float64
其中我们看到的是把 Multilndex 作为 index (索引)的。层次索引
多级索引一般被称为 Multilndex ,接下来来查一下它的
data.index
MultiIndex([(‘a’,1),
(‘a’,2),
(‘a’,3),
(‘b’,1),
(‘b’,3),
(‘c’,1),
(‘c’,2),
(‘d’,2),
(‘d’,3)]
,//每一个是一个小元组
对于这种分层索引对象,partial indexing (部分索引)也是能做到的,这种方法可以让我们简洁地选中数据的一部分:data[‘b’]
1 0.694374
3 -0.112334
//将上面 b 里的值拿出来dtype:float64
data[‘b’:‘c’]
b 1 -0.427638
3 0.663994
c 1 1.577227
2 -1.583739
//取 b 和 c 的索引值,并得到结果dtype:float64
data .loc[‘b’,’d’]]
b 1 -0.427638
3 0.663994
d 2 0.966053
3 0.236567
//选择 b 和 d,第一列是零级索引,第二列是一级索引
dtype:float64
selection (选中)对于一个内部层级(inner level)也是可能的:
注意下面这个地方,这是很特别的
data.loc[:, 2] #一般中括号中的逗号,左边是行,右边是列,但对层次索引来说,有所不同,逗号左边是第一级索引,右边是第一级索引中取值是2的
a 0.521974
c -1.583739
d 0.966053//根据上面的内容可知,运行的结果是索引中取值是2的
dtype:float64
分层索引的作用是改变数据的形状,以及做一些基于分组的操作(group-based)比如做一个数据透视表(pivot table)。例子,我们可以用unstack来把数据进行重新排列,产生一个 DataFrame (数据框):
data.unstack()
1 2 3
a 2.015673 -2.237030 0.271493
b 0.604374 NaN -0.112334
c 1.112763 -0.321422 NaN
d NaN -0.331968 0.392504
//运行发现第零级索引作为行索引,第一级索引作为列的名字
frame
state Ohio Colorado
colorGreenRed Green
key1 key2
1 0 1 2
2 3 4 5
1 6 7 8
2 9 10 11
这里我们要注意区分行标签(rowlabel)中索引的名字
相反的操作是stack:data.unstack().stack()
a 1 2.015673
2 -2.237030
3 0.271493
b 1 0.604374
3 -0.112334
c 1 1.112763
2 -0.321422
d 2 -0.331968
3 0.392504
//还原成原来的层次索引dtype:float64
之后的章节会对unstack和stack做更多介绍。
对于dataframe,任何一个axis(轴)都可以有一个分层索引:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[[‘a’, ‘a’, ‘b’, ‘b’], [1, 2, 1, 2]],
columns=[[‘Ohio’, ‘Ohio’, ‘Colorado’],
[‘Green’, ‘Red’, ‘Green’]]) //创建12个数据组建四行三列,他的行和列都是一个层次索引frame
Ohio Colorado
Green Red Green
a 1 0 1 2
2 3 4 5
b 1 6 7 8
2 9 10 11
每一层级都可以有一个名字(字符串或任何python对象)。如果有的话,这些会显示在输出中:
frame.index.names =[‘key1’, ‘key2’]
frame.columns.names =[‘state’,‘color’]
Frame
state Ohio Colorado
color Green Red Green
key1 key2
1 0 1 2
a
2 3 4 5
1 6 7 8
b2 9 10 11
这里我们要注意区分行标签(row label)中索引的名字‘state’,‘color’。
如果想要选中部分列(partial column indexing)的话,可以选中一组列(groups of columns):
frame[‘Ohio’]
color Green Red
key1 key2
1 0 1
a
2 3 4
1 6 7
B
2 9 10
//可以到上面找相应的数据对应一下
Multilndex能被同名函数创建,而且可以重复被使用;在 DataFrame中给列创建层级名可以通过以下方式:pd.MultiIndex.from_arrays([[‘Ohio’,‘Ohio’,‘Colorado’],[‘Green’, ‘Red’, ‘ Green’]],
names=[‘’state’, ‘color’])
MultiIndex([(‘Ohio’, ‘Green’),
(‘Ohio’, ‘Red’),
(‘Colorado’, ‘Green’ )],
names=[‘state’, ‘color’ ])