- 第一步,将项目所需表头所在的总表读入并赋值,代码如下:
data_info=pd.read_csv('***********.csv(此处输入的是表头总表所在的绝对路径)')
- 第二步,将所有表的相关表头信息分开从总表头表中提取出来并分别进行赋值
columns_info=data_info[data_info['文件名'] =='数据表名']['字段英文名'] columns_debit=data_info[data_info['文件名'] =='数据表名']['字段英文名'] columns_credit=data_info[data_info['文件名'] =='数据表名']['字段英文名']
- 第三步,将所需要处理的所有dat表进行读入训练集和测试集:
训练集:df_basicinfo=pd.read_table('此处为dat表所在地址/表的名称.dat',sep='\|@\|',header=None,engine='python') df_debit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python') df_credit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python') 测试集:test_a_basicinfo=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python') test_a_debit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python') test_a_credit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
- 第四步,将表头分别在每张表中进行显示(以列表的形式)
df_basicinfo.columns= (list(columns_info)) df_credit.columns= (list(columns_credit)) df_debit.columns= (list(columns_debit)) test_a_basicinfo.columns= (list(columns_info_notarget)) test_a_credit.columns= (list(columns_credit)) test_a_debit.columns= (list(columns_debit))
注意:
1.删除列的时候为axis=0,删除行的时候axis=1 *.drop(,axis=0)
2.表名.describe()表示是查看表的信息
3.表名.shape表示的是查看表多少行和列 4.aa[‘cust_no’] == 85115,该句表示的是查找该表中值为85115 出现的次数
5.合并表的代码是pd.merge(表一,表二,on=“此处填写的是两张表之间通过哪个字段进行连 接,比如通过id”)
6.查看超过100列的表的所有列信息 m.info(verbose=True,null_counts=True) (m是表,该表大于100列)
具体可以参考本人的博客文章,链接如下:突破自我的王小懒的博客