Pandas之DataFrame，快速入门，迅速掌握（一）-阿里云开发者社区

一、Pandas数据结构Dataframe

1.基本概念及创建

二维数组"Dataframe：是一个表格型的数据结构，包含一组有序的列，其列的值类型可以是数值、字符串、布尔值等。

Dataframe中的数据以一个或多个二维块存放，不是列表、字典或一维数组结构。

2.Dataframe 数据结构

Dataframe是一个表格型的数据结构，带有标签的二维数组。

Dataframe带有index（行标签）和columns（列标签）

我们看下Dataframe的参数

data = {'name':['Jack','Tom','Mary'],
        'age':[18,19,20],
       'gender':['m','m','w']}
frame = pd.DataFrame(data)
print(frame)  
print(type(frame))

字典类型转换为DataFrame类型。每个键是一列

print(frame.index,'\n该数据类型为：',type(frame.index))
print(frame.columns,'\n该数据类型为：',type(frame.columns))
print(frame.values,'\n该数据类型为：',type(frame.values))
# 查看数据，数据类型为dataframe
# .index查看行标签
# .columns查看列标签
# .values查看值，数据类型为ndarray

3.DataFrame的创建

（1）Dataframe 创建方法一：由数组/list组成的字典

字典的值列表长度不一致会报错

创建方法:pandas.Dataframe()

data1 = {'a':[1,2,3],
        'b':[3,4,5],
        'c':[5,6,7]}
data2 = {'one':np.random.rand(3),
        'two':np.random.rand(3)}   # 这里如果尝试  'two':np.random.rand(4) 会怎么样？
print(data1)
print(data2)
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
print(df2)

由数组/list组成的字典创建Dataframe，columns为字典key，index为默认数字标签

字典的值的长度必须保持一致！如果两列的数据数量不一致，会报错

df1 = pd.DataFrame(data1, columns = ['b','c','a','d'])
print(df1)
df1 = pd.DataFrame(data1, columns = ['b','c'])
print(df1)

columns参数：可以重新指定列的顺序，格式为list，如果现有数据中没有该列（比如’d’），则产生NaN值

如果columns重新指定时候，列的数量可以少于原数据

df2 = pd.DataFrame(data2, index = [‘f1’,‘f2’,‘f3’]) # 这里如果尝试 index = [‘f1’,‘f2’,‘f3’,‘f4’] 会怎么样？

print(df2)

index参数：重新定义index，格式为list，长度必须保持一致

index不一致报错

（2）Dataframe 创建方法二：由Series组成的字典

字典值的长度不一样不会报错

data1 = {'one':pd.Series(np.random.rand(2)),
        'two':pd.Series(np.random.rand(3))}  # 没有设置index的Series
data2 = {'one':pd.Series(np.random.rand(2), index = ['a','b']),
        'two':pd.Series(np.random.rand(3),index = ['a','b','c'])}  # 设置了index的Series
print(data1)
print(data2)
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1)
print(df2)

由Seris组成的字典创建Dataframe，columns为字典key，index为Series的标签（如果Series没有指定标签，则是默认数字标签）

Series可以长度不一样，生成的Dataframe会出现NaN值

（3）Dataframe 创建方法三：通过二维数组直接创建

ar = np.random.rand(9).reshape(3,3)
print(ar)
df1 = pd.DataFrame(ar)
df2 = pd.DataFrame(ar, index = ['a', 'b', 'c'], columns = ['one','two','three'])  # 可以尝试一下index或columns长度不等于已有数组的情况
print(df1)
print(df2)

通过二维数组直接创建Dataframe，得到一样形状的结果数据，如果不指定index和columns，两者均返回默认数字格式

index和colunms指定长度与原数组保持一致

当与原数组行数或列数不一致，会报错

（4）Dataframe 创建方法四：由字典组成的列表列表套字典

data = [{'one': 1, 'two': 2}, {'one': 5, 'two': 10, 'three': 20}]
print(data)
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data, index = ['a','b'])
df3 = pd.DataFrame(data, columns = ['one','two'])
print(df1)
print(df2)
print(df3)

由字典组成的列表创建Dataframe，columns为字典的key，index不做指定则为默认数组标签

colunms和index参数分别重新指定相应列及行标签

index是重新生成标签名

列表中的字典，键的数量不用相同，每个字典是一行数据，不存在的键默认为NaN

colunms并不是重新设置列名，而是指定已存在的列名。没指定出的列，会丢弃没指定列的值

（5）Dataframe 创建方法五：由字典组成的字典字典的值也是字典

这种很少见

data = {'Jack':{'math':90,'english':89,'art':78},
       'Marry':{'math':82,'english':95,'art':92},
       'Tom':{'math':78,'english':67}}
df1 = pd.DataFrame(data)
print(df1)
# 由字典组成的字典创建Dataframe，columns为字典的key，index为子字典的key

df2 = pd.DataFrame(data, columns = ['Jack','Tom','Bob'])
df3 = pd.DataFrame(data, index = ['a','b','c'])
print(df2)
print(df3)

columns参数可以增加和减少现有列，如出现新的列，值为NaN

index在这里和之前不同，并不能改变原有index，如果指向新的标签，值为NaN （非常重要！）

4.DataFrame添加数据

1.append

利用append函数向dataframe中添加新的行：

append函数添加的对象可以为dataframe、series、dict、list等数据结构

注意事项：

如果添加的对象含有DataFrame中不含有的列名，则这些列被当做新的列添加！产生的空位将由Nan补上

参数ignore_index默认为False，若为True则生成的新DataFrame的行索引会重新分配，变为从0开始、步长为1的整数序列

当添加的对象为字典型和列表型时，参数ignore_index必须设为True，不然会报错（因为不知道编译器该如何设置它们的行索引）。但注意ignore_index是重新分配行索引，所以可能会改变原DataFrame的行索引，为了避免这种情况的发生可以将字典型或列表型转化为Series后再加入

当添加的对象为Series时，需要为Series的name赋值，Series的索引被视为列索引，name被视为行索引加入DataFrame中

若添加的对象为DataFrame，则相当于两个DataFrame的拼接

2.案例

#用四种方法创建Dataframe

#方法一：字典的值是列表或数组
# dict1 = {"one":[1,2,3,4,5],"two":[2,3,4,5,6],"three":[3,4,5,6,7],"four":[4,5,6,7,8]}


# d1 =pd.DataFrame(dict1,columns=["four","one","three","two"],index=list("abcde"))
# print(d1)


#方法二： 字典的值为Serise，index放在创建Series里面
dict2 = {"one":pd.Series(np.arange(1,6),index=list("abcde")),"two":pd.Series(np.arange(2,7),index=list("abcde")),"three":pd.Series(np.arange(3,8),index=list("abcde")),"four":pd.Series(np.arange(4,9),index=list("abcde"))}
d2 =pd.DataFrame(dict2,columns=["four","one","three","two"])
print(d2)



#方法三：二维数组创建
# ar3 = np.array([[4,1,3,2],[5,2,4,3],[6,3,5,4],[7,4,6,5],[8,5,7,6]])
# d3 = pd.DataFrame(ar3,columns=["four","one","three","two"],index=list("abcde"))
# print(d3)


#方法四：列表套字典方式，需要指定index和coloumns顺序
lst4 = [{"one":1,"two":2,"three":3,"four":4},
        {"one":2,"two":3,"three":4,"four":5},
        {"one":3,"two":4,"three":5,"four":6},
        {"one":4,"two":5,"three":6,"four":7},
        {"one":5,"two":6,"three":7,"four":8}
        ]
d4 = pd.DataFrame(lst4,index=list("abcde"),columns=["four","one","three","two"])

print(d4)

#方法五：字典里面是字典，index为子字典的key。只需要指定columns顺序

dict5 = {"one":{"a":1,"b":2,"c":3,"d":4,"e":5},
         "two":{"a":2,"b":3,"c":4,"d":5,"e":6},
         "three":{"a":3,"b":4,"c":5,"d":6,"e":7},
         "four":{"a":4,"b":5,"c":6,"d":7,"e":8}
         }
d5 = pd.DataFrame(dict5,columns=["four","one","three","two"])
print(d5)

方法五：index为子字典的key

二、Pandas数据结构Dataframe：索引

Dataframe既有行索引也有列索引，可以被看做由Series组成的字典（共用一个索引）

选择列 / 选择行 / 切片 / 布尔判断

1.选择行与列

df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                   index = ['one','two','three'],
                   columns = ['a','b','c','d'])
print(df)

data1 = df['a']      #直接Dataframe['a']里面的字段，默认是选择列。如果指定的列名不存在，会报错
data2 = df[['a','c']]
print(data1,type(data1))
print(data2,type(data2))
print('-----')

按照列名选择列，只选择一列输出Series，选择多列输出Dataframe。选择多列时，指定列名时，列名以列表方式表示

如果里面指定的是行标签，而不是列标签，会报错

选择行：用.loc方法

data3 = df.loc[‘one’] #选择行

data4 = df.loc[[‘one’,‘two’]]

print(data3,type(data3))

print(data4,type(data4))

按照index选择行，只选择一行输出Series，选择多行输出Dataframe

2.细讲

（1）df[] - 选择列

一般用于选择列，也可以选择行

df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                   index = ['one','two','three'],
                   columns = ['a','b','c','d'])
print(df)
print('-----')

data1 = df['a']
data2 = df[['b','c']]  # 尝试输入 data2 = df[['b','c','e']]
print(data1)
print(data2)
# df[]默认选择列，[]中写列名（所以一般数据colunms都会单独指定，不会用默认数字列名，以免和index冲突）
# 单选列为Series，print结果为Series格式
# 多选列为Dataframe，print结果为Dataframe格式

data3 = df[:1]  #切片选择行，不管多少行，输出类型为Dataframe
#data3 = df[0]   #这种报错
#data3 = df['one']
print(data3,type(data3))
# df[]中为数字时，默认选择行，且只能进行切片的选择，不能单独选择（df[0]）
# 输出结果为Dataframe，即便只选择一行
# df[]不能通过索引标签名来选择行(df['one'])

# 核心笔记：df[col]一般用于选择列，[]中写列名

（2）df.loc[] - 按index选择行

df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
df2 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   columns = ['a','b','c','d'])
print(df1)
print(df2)
print('-----')

data1 = df1.loc['one']
data2 = df2.loc[1]
print(data1)
print(data2)
print('单标签索引\n-----')

单个标签索引，返回Series

当设置索引后，就不能再使用默认的数字索引

data3 = df1.loc[['two','three','five']]
data4 = df2.loc[[3,2,1]]
print(data3)
print(data4)
print('多标签索引\n-----')

多个标签索引，如果标签不存在，则返回NaN

顺序可变

新版的，行标签不存在，会报错

data5 = df1.loc['one':'three']
data6 = df2.loc[1:3]
print(data5)
print(data6)
print('切片索引')

可以做切片对象

末端包含

核心笔记：df.loc[label]主要针对index选择行，同时支持指定index，及默认数字index

（3）df.iloc[] - 按照整数位置（从轴的0到length-1）选择行

类似list的索引，其顺序就是dataframe的整数位置，从0开始计

df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
print(df)
print('------')

print(df.iloc[0])
print(df.iloc[-1])
#print(df.iloc[4])
print('单位置索引\n-----')

单位置索引

和loc索引不同，不能索引超出数据行数的整数位置

print(df.iloc[[0,2]])
print(df.iloc[[3,2,1]])
print('多位置索引\n-----')
# 多位置索引
# 顺序可变

print(df.iloc[1:3])
print(df.iloc[::2])
print('切片索引')
# 切片索引
# 末端不包含

3.布尔型索引

和Series原理相同

df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
print(df)
print('------')

b1 = df < 20
print(b1,type(b1))
print(df[b1])  # 也可以书写为 df[df < 20]
print('------')

不做索引则会对数据每个值进行判断

索引结果保留所有数据：True返回原数据，False返回值为NaN

b2 = df['a'] > 50
print(b2,type(b2))
print(df[b2])  # 也可以书写为 df[df['a'] > 50]
print('------')

（1）单列做判断

索引结果保留单列判断为True的行数据，包括其他列

（1）单列做判断
索引结果保留 单列判断为True的行数据，包括其他列
在这里插入图片描述

b3

（2）多列做判断

索引结果保留所有数据：True返回原数据，False返回值为NaN 没有做判断的列返回NaN

（2）多列做判断
索引结果保留 所有数据：True返回原数据，False返回值为NaN 没有做判断的列返回NaN
在这里插入图片描述

b4

（3）多行做判断

索引结果保留所有数据：True返回原数据，False返回值为NaN

（4）多重索引：比如同时索引行和列

# 先选择列再选择行 —— 相当于对于一个数据，先筛选字段，再选择数据量

df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
print(df)
print('------')

print(df['a'].loc[['one','three']])   # 选择a列的one，three行
print(df[['b','c','d']].iloc[::2])   # 选择b，c，d列的one，three行
print(df[df['a'] < 50].iloc[:2])   # 选择满足判断索引的前两行数据

Pandas之DataFrame，快速入门，迅速掌握（二）https://developer.aliyun.com/article/1496716

Pandas之DataFrame，快速入门，迅速掌握（一）

一、Pandas数据结构Dataframe

1.基本概念及创建

2.Dataframe 数据结构

3.DataFrame的创建

（1）Dataframe 创建方法一：由数组/list组成的字典

（2）Dataframe 创建方法二：由Series组成的字典

（3）Dataframe 创建方法三：通过二维数组直接创建

（4）Dataframe 创建方法四：由字典组成的列表列表套字典

（5）Dataframe 创建方法五：由字典组成的字典字典的值也是字典

4.DataFrame添加数据

1.append

2.案例

二、Pandas数据结构Dataframe：索引

1.选择行与列

2.细讲

（1）df[] - 选择列

（2）df.loc[] - 按index选择行

（3）df.iloc[] - 按照整数位置（从轴的0到length-1）选择行

3.布尔型索引

（1）单列做判断

（2）多列做判断

（3）多行做判断

（4）多重索引：比如同时索引行和列

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Pandas之DataFrame，快速入门，迅速掌握（一）

一、Pandas数据结构Dataframe

1.基本概念及创建

2.Dataframe 数据结构

3.DataFrame的创建

（1）Dataframe 创建方法一：由数组/list组成的字典

（2）Dataframe 创建方法二：由Series组成的字典

（3）Dataframe 创建方法三：通过二维数组直接创建

（4）Dataframe 创建方法四：由字典组成的列表 列表套字典

（5）Dataframe 创建方法五：由字典组成的字典 字典的值也是字典

4.DataFrame添加数据

1.append

2.案例

二、Pandas数据结构Dataframe：索引

1.选择行与列

2.细讲

（1）df[] - 选择列

（2）df.loc[] - 按index选择行

（3）df.iloc[] - 按照整数位置（从轴的0到length-1）选择行

3.布尔型索引

（1）单列做判断

（2）多列做判断

（3）多行做判断

（4）多重索引：比如同时索引行和列

热门文章

最新文章

相关课程

相关电子书

（4）Dataframe 创建方法四：由字典组成的列表列表套字典

（5）Dataframe 创建方法五：由字典组成的字典字典的值也是字典