Pandas 数据合并与整形1|学习笔记

简介: 快速学习 Pandas 数据合并与整形1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践Pandas 数据合并与整形1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15391


Pandas 数据合并与整形1

下面来学习一下 Panda s的第四个内容:数据合并与整形,第一部分有三节,第一部分里面有整体介绍

Data Wrangling: Join, Combine,and Reshape(数据加工整理:连接,合并,整形)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。这一章主要关注工具,能帮我们 combine,join , rearrange数据。
(1)中的操作名
join:连接
combine:合并
reshape:整形
(2)中的操作名
merge:归并
concatenate:串联
concatenate:串联
(3)中的操作名
pivot:旋转,透视
stack:堆叠

(4)Hierarchical Indexing (分层索引)
Hierarchical Indexing 是 pandas 中一个重要的特性,能让我们在一个轴(axis),也就是行或者是列上有多个 index levels  (索引层级),比如说第一级索引,第二级索引……第n级索引。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子,构建一个 series,其 index 是 a list of lists (嵌套列表):
import pandas as pd
import numpy as np
data = pd .Series(np .random .randn (9),//构造series,随机9个数
index=[[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d'],[1,2,3,1,3,1,2,2,3]])//中括号里是索引,中括号里又有中括号表示多级索引,[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d']表示第一级索引,[1,2,3,1,3,1,2,2,3]表示第二级索引,当然更多时候从零开始,第零级索引,第一级索引
data
a

1   0.958453
2  -2.237030

3  0.271493

b

1  0.604374
3 -0.112334

c

1  1.112763

2 -0.321422

d  2 -0.331968

3 0.392504// abcd 表示第零级索引,第二列表示第一级索引

dtype:float64

其中我们看到的是把 Multilndex 作为 index (索引)的。层次索引

多级索引一般被称为 Multilndex ,接下来来查一下它的

data.index

MultiIndex([(‘a’,1),

(‘a’,2),

(‘a’,3),

(‘b’,1),

(‘b’,3),

(‘c’,1),

(‘c’,2),

(‘d’,2),

(‘d’,3)],//每一个是一个小元组

对于这种分层索引对象,partial indexing (部分索引)也是能做到的,这种方法可以让我们简洁地选中数据的一部分:
data[‘b’]
1   0.694374
3 -0.112334//将上面 b 里的值拿出来
dtype:float64
data[‘b’:‘c’]
b   1  -0.427638
3   0.663994
c  1  1.577227
2 -1.583739//取 b 和 c 的索引值,并得到结果
dtype:float64
data .loc[‘b’,’d’]]
b   1  -0.427638

3   0.663994

d   2   0.966053

3   0.236567//选择 b 和 d,第一列是零级索引,第二列是一级索引

dtype:float64
selection (选中)对于一个内部层级(inner level)也是可能的:

注意下面这个地方,这是很特别的
data.loc[:, 2] #一般中括号中的逗号,左边是行,右边是列,但对层次索引来说,有所不同,逗号左边是第一级索引,右边是第一级索引中取值是2的

a   0.521974
c -1.583739
d  0.966053//根据上面的内容可知,运行的结果是索引中取值是2的
dtype:float64
分层索引的作用是改变数据的形状,以及做一些基于分组的操作(group-based)比如做一个数据透视表(pivot table)。例子,我们可以用unstack来把数据进行重新排列,产生一个 DataFrame (数据框):

data.unstack()

1         2 3
a   2.015673   -2.237030   0.271493
b   0.604374      NaN     -0.112334
c   1.112763   -0.321422     NaN
d        NaN   -0.331968   0.392504//运行发现第零级索引作为行索引,第一级索引作为列的名字

frame
state Ohio Colorado
colorGreenRed Green
key1 key2
1 0 1 2
2 3 4 5
1 6 7 8
2 9 10 11

这里我们要注意区分行标签(rowlabel)中索引的名字

相反的操作是stack:
data.unstack().stack()
a 1 2.015673
2 -2.237030

3 0.271493
b 1 0.604374
3 -0.112334
c  1 1.112763
2 -0.321422
d 2 -0.331968
3   0.392504//还原成原来的层次索引
dtype:float64
之后的章节会对unstack和stack做更多介绍。
对于dataframe,任何一个axis(轴)都可以有一个分层索引:

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),      index=[[‘a’, ‘a’, ‘b’, ‘b’], [1, 2, 1, 2]],
columns=[[‘Ohio’, ‘Ohio’, ‘Colorado’],
[‘Green’, ‘Red’, ‘Green’]]) //创建12个数据组建四行三列,他的行和列都是一个层次索引
frame
Ohio Colorado

Green Red Green
a 1        0   1   2

2      3   4    5
b 1      6   7    8
2      9   10   11

每一层级都可以有一个名字(字符串或任何python对象)。如果有的话,这些会显示在输出中:

frame.index.names =[‘key1’, ‘key2’]
frame.columns.names =[‘state’,‘color’]

Frame

state Ohio Colorado

color Green Red Green

key1 key2

1      0    1   2

a
2      3    4   5

1      6    7   8

b2      9    10  11

这里我们要注意区分行标签(row label)中索引的名字‘state’,‘color’。

如果想要选中部分列(partial column indexing)的话,可以选中一组列(groups of columns):

frame[‘Ohio’]

color  Green  Red

key1 key2
1    0      1
a
2    3      4
1    6     7

B

2   9      10 //可以到上面找相应的数据对应一下

Multilndex能被同名函数创建,而且可以重复被使用;在 DataFrame中给列创建层级名可以通过以下方式:
pd.MultiIndex.from_arrays([[‘Ohio’,‘Ohio’,‘Colorado’],[‘Green’, ‘Red’, ‘ Green’]],
names=[‘’state’,  ‘color’])
MultiIndex([(‘Ohio’, ‘Green’),
(‘Ohio’, ‘Red’),

(‘Colorado’, ‘Green’ )],
names=[‘state’, ‘color’ ])

相关文章
|
8天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
104 71
|
5天前
|
分布式计算 数据可视化 数据挖掘
Pandas数据应用:社交媒体分析
本文介绍如何使用Pandas进行社交媒体数据分析,涵盖数据获取、预处理、探索性分析和建模的完整流程。通过API获取数据并转换为DataFrame格式,处理缺失值和数据类型转换问题。利用Matplotlib等库进行可视化,展示不同类型帖子的数量分布。针对大规模数据集提供内存优化方案,并结合TextBlob进行情感分析。最后总结常见问题及解决方案,帮助读者掌握Pandas在社交媒体数据分析中的应用。
134 96
|
7天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
106 73
|
4天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
43 22
|
1天前
|
机器学习/深度学习 运维 分布式计算
Pandas数据应用:异常检测
本文介绍如何使用Pandas进行异常检测,涵盖异常值定义及其对数据分析的影响。通过简单统计方法(如均值+3标准差)、箱线图法(基于四分位距IQR)和基于密度的方法(如DBSCAN),并提供代码案例。同时,针对数据类型不匹配、缺失值处理不当及大数据量性能问题等常见报错给出解决方案。掌握这些技术有助于提高数据分析的准确性和可靠性。
37 19
|
3天前
|
数据采集 数据挖掘 数据处理
Pandas数据应用:金融数据分析
本文介绍如何使用Pandas进行金融数据分析,涵盖数据导入、清洗、转换等基础操作。通过处理缺失值、重复值及数据类型不匹配等问题,结合时间序列分析和大规模数据处理技巧,帮助读者掌握常见问题的解决方案。案例分析展示了计算每日收益率并绘制图表的具体步骤。
33 14
|
2天前
|
存储 数据采集 数据挖掘
Pandas数据应用:用户行为分析
本文介绍了如何使用Pandas进行用户行为分析,涵盖从基础概念到实际应用的多个方面。首先简要介绍了Pandas的安装与基本功能,接着详细讲解了数据加载、初步探索及常见问题(如数据缺失、重复记录和时间戳格式不统一)的处理方法。随后探讨了用户活跃度和路径分析等模式挖掘技巧,并总结了常见报错及避免措施。通过掌握这些内容,读者可以更高效地进行用户行为分析,提升产品设计和用户体验。
34 8
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
87 0
|
4月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
117 0
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
58 2