Pandas简单使用
Pandas最核心的两个数据结构是一维的Series和二维的DataFrame
- Series是带有标签的同构类型数组
- DataFrame是一个二维的表结构
在同构类型的数据中,一个DataFrame可以看作是由多个Series组成的。
数据读取和存储
Pandas是处理结构化数据非常重要的一个工具,其功能强大且好用。
Pandas可以从CSV、JSON、Text等格式文件中读取数据。
CSV文件的读取和存储
对CSV文件进行操作有两个接口(API),分别是read_csv和to_csv。
- read_csvread_csv()是用来读取CSV文件的接口,其具有丰富的参数,可以配置来满足实际的数据读取需要
- filepath_or_buffer:配置所需读取CSV文件的路径
- sep:配置CSV文件的列分隔符,默认是逗号“, ”
- delimiter:可选配置,作为sep配置分隔符的别名
- delim_whitespace:配置是否用空格来作为列分隔符。如果设置为True,那么sep配置参数就不起作用了。
- header:配置用列数来作为列名,默认配置成自动推断。
- names:配置列名,如果所读取的CSV文件没有表头,那么需要配置header=None,否则会将第一行数据作为对应的列名。
- usecols:当只需要读取CSV文件中的部分数据时,可以使用usecols来指定读取列名以获取数据。
- dtype:配置所读取数据的类型
- encoding:配置文件的编码方式,一般使用UTF-8或者GBK
- to_csvto_csv()用于将数据保存到CSV文件中。其参数比较多,但只有第一个参数是必需的。
- path_or_buf:配置CSV文件的保存路径
- sep:配置保存文件的分隔符,默认是逗号“, ”
- na_rep:配置空值补全的值,默认用空格代替
- float_format:配置将浮点数格式化成字符串类型
- columns:配置需要写入列的列名,如果不配置,则默认从第1列开始写入
- header:配置是否写入列名,默认是需要写的
- index:配置是否写入行名,默认是需要写的
- index_label:配置用来作为列索引的列,默认是没有的
- mode:配置写入模式,默认是W
- encoding:配置编码格式,该配置只针对Python 3以前的版本
- line_terminator:配置每行的结束符,默认使用“\n”
- quotin:配置CSV的引用规则
- quotechar:配置用来作为引用的字符,默认是空格
- chunksize:配置每次写入的行数
- tuplesize_cols:配置写入list的格式,默认以元组的方式写入
- date_format:配置时间数据的格式
JSON文件的读取和存储
对JOSN文件进行操作有两个API,分别是read_json和to_json
- read_json()read_json()是用于读取JSON文件或者返回JSON数据的接口,需要用到的配置参数如下
- filepath_or_buffer:配置有效的JSON字符串、JSON文件的路径或者数据接口。数据接口可以是一个URL地址。
- type:配置将读取的数据生成Series还是DataFrame,默认是DataFrame
- to_json()to_json()用于将数据保存为JSON格式。需要用到的配置参数如下:
- path_or_buf:配置JSON数据保存的路径或者写入的内存区域
- date_format:配置时间数据的格式,epoch表示配置成时间戳的格式,iso表示配置成ISO 8601的格式
- double_precision:配置小数点后保留的位数,默认是10位
- force_ascii:配置是否强制将String转码成ASCII,默认强制进行转码
- date_unit:配置时间数据的格式,可以实现精确到秒级或毫秒级
数据查看和选取
Pandas的数据对象有Series、DataFrame和Panel,常用的数据类型是一维的Series和二维的DataFrame。DataFrame拥有非常丰富的API,能够满足对数据选取和处理的需求。
查看数据
- df.shape
df.shape用于查看数据的维度。由于DataFrame是二维的,因此df.shape的返回值包含两个元素,df.shape[0]返回的是行数,df.shape[1]返回的是列数。
import pandas as pd dict={'cpu':'8c', 'memory':'64G'} df=pd.DataFrame(dict, index=[0]) print(df) print(df.shape[0]) print(df.shape[1]) ###### cpu memory 0 8c 64G 1 2
- df.head()
df.head()默认返回DataFrame数据的前5行,如果需要查看更多的行数,则只要传参进去即可。df.tail()默认返回数据的后5行,想要查看更多的数据同样可以传参进去。
查看数据的汇总统计可以使用df.describe(),查看数据概况可以使用df.info。
import pandas as pd dict=[{'cpu':'8c', 'memory':'64G'}, {'cpu':'12c', 'memory':'64G'}] df=pd.DataFrame(dict, index=[0,1]) print("--------------------") print(df.head(2)) #查看前两行数据 print("--------------------") print(df.tail(1)) #查看最后一行数据 print("--------------------") print(df.describe()) #查看数据的汇总统计 print("--------------------") print(df.info()) #查看数据概况 ###### -------------------- cpu memory 0 8c 64G 0 12c 64G -------------------- cpu memory 0 12c 64G -------------------- cpu memory count 2 2 unique 2 1 top 8c 64G freq 1 2 -------------------- <class 'pandas.core.frame.DataFrame'> Int64Index: 2 entries, 0 to 0 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 cpu 2 non-null object 1 memory 2 non-null object dtypes: object(2) memory usage: 48.0+ bytes None
- 想要查看列名可以使用df.columns.values,查看各列的平均值可以直接用df.mean()。
import pandas as pd dict=[{'cpu':1000, 'memory':2000}, {'cpu':3000, 'memory':500}] df=pd.DataFrame(dict, index=[0,1]) print(df.columns.values) print(df.mean()) ####### ['cpu' 'memory'] cpu 2000.0 memory 1250.0 dtype: float64
选取数据
在选取数据时,既可以使用列名来选取,也可以使用索引来选取。
如果要查看某列的数据,则可以用df[col_name]或者df.col_name,当查看多列时可以将多列的列名作为一个数组传参进去,如df[[col1, col2]]。
使用索引来选取数据,则要用到df.iloc。要注意 df.loc和df.iloc在使用上是有区别的,df.loc传递的是索引的名称,df.iloc传递的是索引的相对位置,常用的是df.iloc。
import pandas as pd dict=[{'cpu':'8c', 'memory':'64G'}, {'cpu':'12c', 'memory':'64G'}] df=pd.DataFrame(dict, index=[0,1]) print(df.iloc[1]) #iloc是取的索引的相对位置,即DataFrame的第二行元素 print("---------------") print(df.loc[0]) #loc是取的行索引的名称 print("---------------") print(df['memory']) #通过列名查看数据 print("---------------") print(df.cpu) #通过列名查看数据,使用的是“.”访问方式 ###### cpu 12c memory 64G Name: 1, dtype: object --------------- cpu 8c memory 64G Name: 0, dtype: object --------------- 0 64G 1 64G Name: memory, dtype: object --------------- 0 8c 1 12c Name: cpu, dtype: object
数据处理
Pandas DataFrame提供了丰富的数据处理方法,为进行必要的数据操作和预处理提供了非常大的帮助
数据合并
在进行数据预处理时,需要进行必要的数据合并操作,将分散的数据或者部分数据整合到一起。
DataFrame提供了多个数据拼接的方法,使用pd.concat()可以直接放到数组中按行拼接,也可以使用pd.merge()按列拼接,或者使用df.append()增加某列数据
import pandas as pd dict=[{'cpu':'8c', 'memory':'64G'}, {'cpu':'12c', 'memory':'64G'}] df=pd.DataFrame(dict, index=[0,1]) print(df) print("-----") pie=[df, df] df2=pd.concat(pie) #按行拼接,也就是说,数据在行的方向上进行增加 print(df2) print("-----") df3=pd.merge(df2, df, on='cpu') #按列cpu进行拼接。发现会在拼接后的df3中增加一列,且列名变成了memory_x, memory_y print(df3) ###### cpu memory 0 8c 64G 1 12c 64G ----- cpu memory 0 8c 64G 1 12c 64G 0 8c 64G 1 12c 64G ----- cpu memory_x memory_y 0 8c 64G 64G 1 8c 64G 64G 2 12c 64G 64G 3 12c 64G 64G
数据清理
在使用DataFrame进行数据处理时,如果数据质量不高,则需要清理一些空值或者进行空值补全。
可以使用df3.isnull()检查数据是否为空值,使用df3.isnull().sum()进行空值的统计。
如果需要对空值进行补全,则可以使用df3.fillna(n), n值就是替换空值的值。
如果想要去掉所有带有空值的数据,则可以使用df3.dropna()删除包含空值的行和列,默认删除包含空值的行。df3.dropna(axis=1)会删除包含空值的列
import pandas as pd dict=[{'cpu':'8c', 'memory':'64G'}, {'cpu':'12c', 'memory':'64G'},{'cpu':'16c', 'memory':None}] df=pd.DataFrame(dict, index=[0,1,2]) print(df) print("-------------") print(df.isnull())#判断df中为空值的元素,返回的是整个df的空值判断结果分布 print("-------------") print(df.isnull().sum())#统计df中空值元素的个数,返回的是按列统计结果 print("-------------") print(df.fillna('32G')) #对df中的空值元素用32G进行空值补全。 #注意,这里的补全只是对返回结果的补全,对df中的原始空值并不改变,这个同样适用于df.dropna() print("-------------") print(df) #可以看到df中的空值并没有改变 print("-------------") print(df.dropna()) print("-------------") print(df.dropna(axis=1)) ###### cpu memory 0 8c 64G 1 12c 64G 2 16c None ------------- cpu memory 0 False False 1 False False 2 False True ------------- cpu 0 memory 1 dtype: int64 ------------- cpu memory 0 8c 64G 1 12c 64G 2 16c 32G ------------- cpu memory 0 8c 64G 1 12c 64G 2 16c None ------------- cpu memory 0 8c 64G 1 12c 64G ------------- cpu 0 8c 1 12c 2 16c
数据处理
在进行数据处理时,还会遇到诸如转换数据类型、统计唯一值的个数以及序列排序等需求。
DataFrame也提供了一些对应的操作方法供使用,比如,转换数据类型可以使用df.astype(),统计唯一值的个数可以使用df.columns.value_counts(),序列排序可以使用df.sort_values(by= colname, ascending=True)
import pandas as pd dict=[{'cpu':8, 'memory':'64G'}, {'cpu':12, 'memory':'64G'},{'cpu':16, 'memory':None}] df=pd.DataFrame(dict, index=[0,1,2]) print(df) print("-------------") print(df['cpu'].astype(float)) #对指定列进行数据类型转换,将cpu列的类型 #从int转换为float。如df.fillna()一样,这个操作并不会改变df中的原始值 #而是将df复制了一份进行相应的数据转换后返回 print("-------------") print(df["memory"].value_counts()) #对df["memory"]中的数据进行次数统计,返回统计结果 # df.value_counts() 统计行出现得次数 print("-------------") print(df.sort_values(by='cpu', ascending=False)) #按照cpu列的元素值大小 ###### cpu memory 0 8 64G 1 12 64G 2 16 None ------------- 0 8.0 1 12.0 2 16.0 Name: cpu, dtype: float64 ------------- 64G 2 Name: memory, dtype: int64 ------------- cpu memory 2 16 None 1 12 64G 0 8 64G