Pandas是什么

Pandas 包是基于 Python 平台的数据管理利器，已经成为了 Python 进行数据分析和挖掘时的数据基础平台和事实上的工业标准。使用 Pandas 包完成数据读入、数据清理、数据准备、图表呈现等工作，为继续学习数据建模和数据挖掘打下坚实基础。

安装

pip install pandas

Series对象创建

Series：一维数组,与Numpy中的一维array类似。它是一种类似于一维数组的对象，是由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的 Series 对象。用值列表生成 Series 时，Pandas 默认自动生成整数索引。

pandas中两个重要的属性 values 和index，values:是Series对象的原始数据。index:对应了Series对象的索引对象

DataFrame对象创建

DataFrame 是 Pandas 中的一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame 即有行索引也有列索引，可以被看做是由 Series 组成的字典。将两个series对象作为dict的value传入，就可以创建一个 DataFrame对象。

导入Excel文件

使用read_excel()方法导入文件，首先要指定文件的路径。

说明：使用Pandas模块操作Excel时候，需要安装openpyxl

import pandas as pd
pd.read_excel('stu_data.xlsx')

导入.xlsx文件时，指定导入哪个Sheet

pd.read_excel('stu_data.xlsx',sheet_name='Target')
pd.read_excel('stu_data.xlsx',sheet_name=0)

导入.xlsx文件时，通过index_col指定行索引

pd.read_excel('stu_data.xlsx',sheet_name=0,index_col=0)

导入.xlsx文件时，通过header指定列索引

pd.read_excel('stu_data.xlsx',sheet_name=0,header=1)

有时候本地文件的列数太多，而我们又不需要那么多列时，我们就可以通过设置usecols参数来指定要导入的列。

pd.read_excel('stu_data.xlsx',usecols=[1,2,3])

导入csv文件

导入csv文件时除了指明文件路径，还需要设置编码格式。Python 中用得比较多的两种编码格式是UTF-8和gbk，默认编码格式是UTF-8。我们要根据导入文件本身的编码格式进行设置，通过设置参数 encoding来设置导入的编码格式。

导入.csv文件，文件编码格式是gbk

pd.read_csv('stu_data.csv',encoding='gbk')

导入.csv文件，指明分隔符

pd.read_csv("stu_data.csv",encoding='gbk',sep=' ')
pd.read_csv('stu_data.csv',encoding='gbk',sep=',')

导入txt文件

导入.txt文件用得方法时read_table()，read_table()是将利用分隔符分开的文件导入。DataFrame的通用函数。它不仅仅可以导入.txt 文件，还可以导入.csv文件。

导入.txt文件

pd.read_table('test_data.txt',encoding='utf8',sep='\t')

导入.csv文件，指明分隔符

pd.read_table('stu_data.csv',encoding='gbk',sep=',')

读取数据库数据

配置 MySQL 连接引擎：

conn = pymysql.connect(
host = 'localhost',
user = 'root',
passwd = 'root',
db = 'mydb',
port=3306,
charset = 'utf8' )

读取数据表：

pd.read_sql(
sql :需要执行的 SQL 语句/要读入的表名称
con : 连接引擎名称
index_col = None :将被用作索引的列名称
columns = None :当提供表名称时，需要读入的列名称
list
)
tab1 = pd.read_sql('select * from
emp',con=conn)
tab1 = pd.read_sql('select count(*) from
emp',con=conn)

保存数据

保存数据至外部文件

df.to_csv(
    filepath_or_buffer :要保存的文件路径
    sep =：分隔符
    columns :需要导出的变量列表
    header = True :指定导出数据的新变量名，可直接
提供 list
    index = True :是否导出索引
    mode = 'w' : Python 写模式,读写方式：r,r+ ,
w , w+ , a , a+     encoding = 'utf-8' :默认
导出的文件编码格式
)

df.to_excel(
     filepath_or_buffer :要读入的文件路径
     sheet_name = 1 Sheetl1 :要保存的表单名称
)

保存数据至数据库

df.to_sql(
    name :将要存储数据的表名称
    con : 连接引擎名称
    if_exists = 'fail' :指定表已经存在时的处理方
式
             fail :不做任何处理(不插入新数据)
             replace :删除原表并重建新表
             append :在原表后插入新数据
    index = True :是否导出索引 )
#pip install sqlalchemy
from sqlalchemy import create_engine
con =
create_engine('mysql+pymysql://root:root@loc
alhost:3306/mydb?charset=utf8')
df.to_sql('t_stu',con,if_exists=append)

了解数据

head()与 tail()

head()方法返回前 n 行(观察索引值)，显示元素的数量默认是 5，但可以传递自定义数值

tail()方法返回后 n 行观察索引值)，显示元素的数量默认是 5，但可以传递自定义数值

#浏览前几条记录
df.head()
df.head(10)
#浏览最后几条记录
df.tail()

info()

info()方法查看数据表中的数据类型，而且不需要一列一列的查看， info()可以输出整个表中所有列的数据类型。

df.info()

shape

shape()方法会以元组的形式返回行、列数。注意 shape 方法获取行数和列数时不会把索引和列索引计算在内。

df.shape

describe()

describe()方法就是可以就可以获取所有数值类型字段的分布值。

df.describe()

列操作

修改变量列

columns

df.columns =新的名称 list

rename()

df.rename(
columns =新旧名称字典：｛旧名称，：新名称，｝
inplace = False :是否直接替换原数据框)

df.rename(columns =
｛'newname':'name','newname2':'name2'｝,
inplace = True ）

筛选变量列

通过 df.var 或 df[var] 可以选择单列

注意：但只适用于已存在的列，只能筛选单列，结果为 Series

df[[var]] 单列的筛选结果为 DataFream
df[['var1', 'var2']] 多列时，列名需要用列表形式提
供（因此可使用列表中的切片操作） 多列的筛选结果为 DF

删除变量列

df.drop（
index / columns =准备删除的行/列标签，多个时用列表
形式提供
inplace = False :是否直接更改原数据框 ）

df.drop(columns =['col1','col2']）
del df['column-name'] 直接删除原数据框相应的一列，
建议尽量少用
del df.column_name #不允许

添加变量列

根据新数据添加

df[cloumn] = pd.Series([val,val2,val3],index=[c1,c2,c3])

根据原数据添加

df[cloumn] = df[c2]+df[c3]

变量类型的转换

Pandas 支持的数据类型

具体类型是 Python, Numpy 各种类型的混合，可以比下表分的更细

float int string bool datetime64[nsr] datetime64[nsr,tz] timedelta[ns] category object

df.dtypes :査看各列的数据类型

在不同数据类型间转换

df.astype(
 dtype :指定希望转换的数据类型，可以使用 numpy 或
者 python 中的数据类型： int/float/bool/str
 copy = True :是否生成新的副本，而不是替换原数据框
 errors = 'raise' : 转换出错时是否抛出错误，
raise/ ignore )

#将df里所有的列转换成str
df.astype('str')
df.astype('str').dtypes
#修改某一列数据的数据类型
df.column.astype ('str')
#转换错误
df.astype('int', errors = 'ignore').dtypes 明
确指定转换类型的函数

旧版本方法：

pd.to_datetime ()

pd.to_timedelta ()

pd.to_numeric ()

pd.to_string()

建立索引

新建数据框时建立索引

所有的数据框默认都已经使用从 0 开始的自然数索引，因此这里的"建立”索引指的是自定义索引

df = pd.DataFrame( {'varl' : 1.0, ' var2' :
[1,2,3,4], 'var3' : ['test', 'python','test',
'hello'] , 'var4' : 'cons'} , index =
[0,1,2,3]
 )

读入数据时建立索引

使用现有的列

df = pd.read_csv ("filename",index_col="column”)

使用复合列

df = pd.read_csv ("filename", index_col=[0,1..])

指定某列为索引列

df.set_index(
    keys :被指定为索引的列名，复合索引用 list:格式
提供
    drop = True :建立索引后是否删除该列
    append = False :是否在原索引基础上添加索引，默
认是直接替换原索引       inplace = False :是否直
接修改原数据框 )

df_new = df.set_index (keys=['学号'，'性别'],drop = False)
df_new = df.set_index (keys='学号',append=True, drop=False)

将索引还原变量列

df.reset_index(
drop = False :是否将原索引直接删除，而不是还原为变量列
inplace = False :是否直接修改原数据框)

引用和修改索引

引用索引

注意：索引仍然是有存储格式的，注意区分数值型和字符型的引用方式

df.index

修改索引

修改索引名

本质上和变量列名的修改方式相同

df = pd.DataFrame({
    'name':['zs','ls','ww'],
    'level':['vip1','vip2','pm']
})
df.index.name='sno'

修改索引值

这里的修改本质上是全部替换

df1.index = ['a', 'b', 'c']

更新索引

reindex 则可以使用数据框中不存在的数值建立索引，并据此扩充新索引值对应的索引行/ 列，同时进行缺失值填充操作。

df.reindex(labels :类数组结构的数值，将按此数值重建索引，非必需
 copy = True :建立新对象而不是直接更改原 df/series 缺失数
据的处理方式
 method :针对已经排序过的索引，确定数据单元格无数据时
的填充方法，非必需
 pad / ffill:用前面的有效数值填充
 backfill / bfill:用后面的有效数值填充
 nearest:使用最接近的数值逬行填充
 fill_value = np.NaN :将缺失值用什么数值替代
 limit = None :向前/向后填充时的最大步长
)

import pandas as pd
df = pd.DataFrame({
    'name':['zs','ls','ww'],
    'level':['vip1','vip2','pm']
})
df.reindex([0,1,3])
df.reindex([0,1,2,3],method='ffill')
df.reindex([0,1,2,3],fill_value="test")

Series的索引和切片

索引

import numpy as np
import pandas as pd
data=pd.Series([4,3,25,2,3],index=list('abcde'))
data['a'] #根据key获取
data[1] #索引获取
data[-1]

切片

import numpy as np
import pandas as pd
data=pd.Series([4,3,25,2,3],index=list('abcde'))
data['a':'d']
data[2:4] #索引切片
data[-3:-1]
data[data>3]

如果索引与行名相同都是1，这时候就不知道是按照哪个来获取，所以获取时候使用loc、iloc

loc函数：通过行索引 "Index" 中的具体值来取行数据及根据普通索引获取。（如取"Index"为"A"的行）

iloc函数：通过行号来取行数据，及根据位置索引获取。

data=pd.Series([5,3,2,5,9],index=[1,2,3,4,5])
data.loc[1]
data.iloc[1]

DataFrame的索引和切片

选择列

当想要获取 df 中某列数据时，只需要在 df 后面的方括号中指明要选择的列即可。如果是一列，则只需要传入一个列名;如果是同时选择多列，则传入多个列名即可（注意：多个列名用一个 list 存放）

#获取一列
df[col]
#获取多列
df[[col1 , col2]]

除了传入具体的列名，我们可以传入具体列的位置，即第几行，对数据进行选取，通过传入位置来获取数据时需要用到 iloc 方法。

df.iloc[,[0,2]]

按行列索引选择

DataFrame对象按照行列检索获取，可以使用loc和iloc函数，方括号中逗号之前的部分表示要获取的行的索引，如果输入一个冒号，或不输入任何数值表示获取所有的行或列，逗号之后方括号表示要获取的列的索引。

df.loc[普通行索引,普通列索引]
df.iloc[位置行索引,位置列索引]

isin()选择

df.isin(values) 返回结果为相应的位置是否匹配给出的 values

values 为序列：对应每个具体值

values 为字典：对应各个变量名称

values 为数据框：同时对应数值和变量名称

df.col.isin([1,3,5])
df[ df.col.isin([1,3,5])]
df[ df.col.isin(['val1','val2'])]
df[ df.index.isin(['val1','val2'])]

query()的使用

使用boolean值表达式进行筛选

df.query(
 expr：语句表达式
 inplace=False;是否直接替换原数据框
)

可以使用前缀“@”引用环境变量等号为==，而不是=

df.query("col>10 and col<90 and col1=val")
limit = 5
df.query("col<=@limit & col==val")
df.query("col<=@limit & col!=val")

排序

用索引排序

df.sort_index（
 level :（多重索引时）指定用于排序的级别顺序号/名称18
 ascending = True :是否为升序排列，多列时以表形式提供
 inplace = False :
 na_position = 'last‘ :缺失值的排列顺序，
 first/last
）

df = pd.read_excel（"stu_data.xlsx",
index_col=["学号”,”性别”]） df.set_index( ['学号','性别'], inplace = True )
# 通过索引进行排序                                           
df.sort_index()                              
df.sort_index(ascending = [True,False])
#设置哪个索引进行排序                          
df.sort_index(level="支出")
df.sort_index(level= ["支出","体重"])

使用变量值排序

df.sort_values（
 by :指定用于排序的变量名，多列时以列表形式提供
 ascending = True :是否为升序排列
 inplace = False )

# 根据值进行排序
df.sort_values(by='身高')

计算新变量

新变量为常数

df['vamame'] = value

基于原变量做简单四则运算

df['var'] = df['oldvar'] *100
df['var'] = df.oldvar * 100

基于一个原变量做函数运算

df.apply（
func : 希望对行/列执行的函数表达式
axis = 0 :针对行还是列逬行计算
 0 ' index':针对每列进行计算
 1' columns ':针对每行逬行计算
）

简化的用法

df [' varname ' ] = df. oldvar. apply （函数表达式）

df['n5'] = df.体重.apply(math.sqrt)
df['n7'] = df.体重.apply(numpy.sqrt)

不修改原df,而是生成新的df

df.assign(varname = expression)

在指定位置插入新变量列

df.insert(
 loc :插入位置的索引值，0 <= loc <= len (columns)
column :插入的新列名称
value : Series 或者类数组结构的变量值
allow_duplicates = False :是否允许新列重名
)

#该方法会直接修改原 df

# 指定位置增加新列
df.insert(1,'new_col',100)
df.insert(1,'new_col2',df.课
程.apply(get_first))

修改替换变量值

本质上是如何直接指定单元格的问题，只要能准确定位单元地址，就能够做到准确替换。

对应数值的替换

df.replace(
 to_replace = None :将被替换的原数值，所有严格匹配的数值
将被用 value 替换，可以
 str/regex/list/dict/Series/numeric/None
 value = None :希望填充的新数值
 inplace = False
)

指定数值范围的替换

方法一：使用正则表达式完成替换

df.replace(regex, newvalue)

方法二：使用行筛选方式完成替换用行筛选方式得到行索引，然后用 loc 命令定位替换目前也支持直接筛选出单元格进行数值替换

注意： query 命令的类 SQL 语句可以逬行检索，但不直接支持数值替换

# 使用正则匹配数据
df.开设.replace(regex = '不.+',value = '可以',inplace = True)
#iloc loc
df.支出.iloc[0:3] = 20
df.支出.loc[0:2] =30
#条件筛选替换
df.体重[df.体重>70] =70
df[df.体重==70].体重 = 80   # 注意引用问题
#query()的使用
df.query('性别 == "女" and 体重 > 60 ').体重 =50
df.loc[df.query('性别 == "女" and 体重 > 60').体重.index,'体重'] = 50

一文让你快速上手Pandas（一）

Pandas是什么

Series对象创建

DataFrame对象创建

导入Excel文件

导入csv文件

导入txt文件

读取数据库数据

保存数据

保存数据至外部文件

保存数据至数据库

了解数据

列操作

修改变量列

筛选变量列

删除变量列

添加变量列

变量类型的转换

建立索引

引用和修改索引

Series的索引和切片

DataFrame的索引和切片

排序

计算新变量

修改替换变量值

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

一文让你快速上手Pandas（一）

Pandas是什么

Series对象创建

DataFrame对象创建

导入Excel文件

导入csv文件

导入txt文件

读取数据库数据

保存数据

保存数据至外部文件

保存数据至数据库

了解数据

列操作

修改变量列

筛选变量列

删除变量列

添加变量列

变量类型的转换

建立索引

引用和修改索引

Series的索引和切片

DataFrame的索引和切片

排序

计算新变量

修改替换变量值

热门文章

最新文章

相关课程

相关电子书