Pandas入门

简介: 标题中的英文首字母大写比较规范,但在python实际使用中均为小写。2018年8月2日笔记建议读者安装anaconda,这个集成开发环境自带了很多包。

标题中的英文首字母大写比较规范,但在python实际使用中均为小写。
2018年8月2日笔记
建议读者安装anaconda,这个集成开发环境自带了很多包。
作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。

1.导入库

使用 pandas,首先就得熟悉它的两个主要数据结构: Series和 Dataframe。

from pandas import Series,DataFrame
import pandas as pd

2.创建Series取索引

Series对象有loc和iloc成员变量,如下图所示:
loc的数据类型为pandas.core.indexing,_LocIndexer
iloc的数据类型为pandas.core.indexing,_iLocIndexer
用loc进行索引时,中括号[ ]中的值必须是索引的真实值;
用iloc进行索引时,中括号[ ]中的值必须是整数,与列表list索引取值类似,例如obj.iloc[2]就是取第3行的值。

img_42aacc06ffd427017d7bb4d4eafc18b4.png
image.png

3.Pandas基本数据类型-DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 。
Dataframe既有行索引也有列索引,它可以被看做由 Series组成的字典(共用同一个索引)。
跟其他类似的数据结构相比(如R的dataframe), Data frame中面向行和面向列的操作基本上是平衡的。
其实, Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

3.1 可以用于构造DataFrame的数据

类型 说明
二维ndarray 数据矩阵,还可以传入行和列
由列表或元组成的字典 每个序列会变成DataFrame中的一列,所有序列的长度必须相同
Numpy的结构化/记录数组 类似于"由列表组成的字典"
由Series组成的字典 每个Series会形成1列
由字典组成的字典 各内层字典会成为1列
字典或者Series的列表 各项会成为DataFrame的1行,字典键的并集成为列

简单例子如下:

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

上面一段代码的运行结果如下:


img_0f61d6d1fd2754936ac8400433712317.png
image.png

自定义列的顺序,代码如下:

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data,columns=['year','state','pop'])
df
img_66bf49e3656e8f531a8dc00ada8eeeb6.png
image.png

3.2 读取DataFrame中的数据

有两种方式读取数据:

  1. 通过类似字典键索引的方式:


    img_0cc69bd589cca841c7020aaf6c09a49e.png
    image.png

    2.通过属性的方式:


    img_35e87148b5228885cc5b668a46e75f66.png
    image.png

3.3 DataFrame增加列

给“财务”列赋值一个标量


img_8b997b9da459c4502213d42e2211ad84.png
image.png

给“财务”列赋值一组值


img_1bb8e2063f2bc407ee81308a30ac8062.png
image.png

用旧列产生新列
img_a8d10267c1d5f52877833b0fa4e7fd4f.png
image.png

3.4 DataFrame删除列

删除"地区_上海"列:del df['地区_上海']

3.5 DataFrame转置

img_0670effa7e03f2eceacc575eec1bfeef.png
image.png

3.6 DataFrame取值

img_0fefbd03570471e60500219a3166f844.png
image.png

4.Pandas快速进阶

4.1 DataFrame创建

创建行和列都为自定义值的DataFrame

from pandas import DataFrame
import numpy as np
kwargs = dict(
    index = ['上海','北京','广州','天津'],
    columns = ['one', 'two', 'three', 'four']
)
df = DataFrame(np.arange(16).reshape(4,4), **kwargs)
df
img_7b173af878a9b23415a09d676f0ff4e9.png
image.png

4.2 DataFrame删除多行

img_59f0370de63c9febcfe756585bf9ced2.png
image.png

4.3 DataFrame删除多列

img_1420b04ea035ca1b0f65225fc824499e.png
image.png

4.4 DataFrame选出多行

选出第2、 3行,即选出索引为1、2的行,代码如下:
注意,df.iloc 不是方法,是类似于列表list的可迭代对象,所以后面必须接中括号[ ]

img_ee62dbf2946623c52af7d0c5955da0f0.png
image.png

4.5 DataFrame选出多列

选出第2、 3列,即选出索引为1、 2的列,代码如下:


img_a0b9929e8ff66d28278ceb480702cda0.png
image.png

在不知道列名的情况下实现:


img_0f468d7df11674402b86bd0d752b8e7c.png
image.png

练习

Step 1. 导入相应的模块

import pandas as pd
import numpy 
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

Step 2. 给定的原始数据集

# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
            'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
            'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
            'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
            'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
            'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
            'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}

Step 3. 根据原始数据集创建一个DataFrame,并赋值给变量army

army = DataFrame(raw_data,columns=raw_data.keys())

Step 4. 设置给定数据中的origin字段为DataFrame的列名,即columns的值,结果如下所示

army.index = army.origin
del army['origin']
army
img_7dd12b5af363877c4f65ab6703590e7d.png
image.png

Step 5. 打印列名为veterans的所有值,效果如下:

army['veterans']
img_ca24be4ea6529a42781158a7ff59728b.png
image.png

Step 6. 打印列名为 'veterans' 和 'deaths' 的所有数据

army[['veterans','deaths']]
img_892a1dd70429b6f34953805dbeef4cb4.png
image.png

Step 7. 打印出所有的列索引的值

army.columns
img_083d3e309f1842ce3aa67ba98e01e6e0.png
image.png

Step 8. 筛选出列 regiments 的值不为"Dragoons"的所有数据,如下所示
方法一:

army.iloc[army['regiment'].values != 'Dragoons']

方法二:

army[army['regiment'] != 'Dragoons']

方法二又等同于army.iloc[army['regiment'] != 'Dragoons']

img_8aa4255c73cfb25f9e86642efb3b249f.png
image.png

附加题:筛选出如下所示的数据, 即第3到7行,第3到6列的所有数据

army.iloc[range(3,8)][army.columns[3:7]]
img_861ac7fc99541fc18ced52981f61eba8.png
image.png

想学习更多关于Pandas的知识,请查看作者的《Pandas入门2》
链接:https://www.jianshu.com/p/2ca0ef0d659f

目录
相关文章
|
数据可视化 数据挖掘 C++
一文入门数分三剑客--Numpy、Pandas、Matplotlib
一文入门数分三剑客--Numpy、Pandas、Matplotlib
365 0
|
8月前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
202 2
|
9月前
|
存储 大数据 数据处理
Pandas入门:安装与基本操作
Pandas 是一个强大的 Python 数据处理库,提供高效的数据结构和分析工具。本文从安装开始,介绍 Pandas 的基本操作,包括 `Series` 和 `DataFrame` 的创建、查看、选择、过滤、添加和删除数据等。同时,指出了一些常见的问题和易错点,帮助初学者快速上手。
441 2
|
10月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
索引 Python
pandas 入门
pandas 入门
239 0
pandas 入门
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
数据采集 机器学习/深度学习 数据挖掘
Pandas简易入门指南
在数据科学和数据分析的世界中,Pandas库以其强大的数据处理能力而闻名。作为一个基于Python的开源库,Pandas提供了快速、灵活和富有表现力的数据结构,旨在使数据处理变得简单和直观。无论是处理时间序列数据、统计数据分析,还是进行数据清洗和准备,Pandas都是数据科学家的首选工具之一。
234 4
|
索引 Python
【Pandas】- pandas入门
【Pandas】- pandas入门
|
数据采集 数据挖掘 数据处理
《Pandas 简易速速上手小册》第1章:Pandas入门(2024 最新版)
《Pandas 简易速速上手小册》第1章:Pandas入门(2024 最新版)
116 1