pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。
额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。
1.导入pandas和numpy模块
import pandas as pd
import numpy as np
import os
2.查看并更改工作路径
pwd
os.chdir('更改的路径')
3.读入数据集
df=pd.read_csv(r'文件路径')
4.查看列数、行数
print(df1.columns.size,df.iloc[:,0].size)
5.查看列名
df.columns.tolist()
6.查看每个特征的类型
for col in fk_df.columns:print(col,fk_df[col].dtype)
7.计算坏账率
badRate=df['target'].sum()/df['target'].count()
8.计算特征空值率
null_rate=1-df.count()/df.shape[0]
9.保留空值率小于0.2的特征
cols=null_rate[null_rate<0.2].index.tolist()
10.查找数据集数值中型特征小于0的值并置为nan
def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)
11.设置新的索引
df=df.reindex()
12.检查常量特征
df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]
13.查看是否有重复特征
len(set(list(df1.columns)))==df1.shape[1]
14.查看特征类别数
df1['education'].value_counts()