使用python中的库对数据处理时需要用到python中的pandas和numpy-阿里云开发者社区

使用python中的库对数据处理时需要用到python中的pandas和numpy

2022-04-20 106

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们在建模比赛的时候,给了我们数据集并不是完美的数据集,需要我们对表进行处理.以下就是我的一些处理过程

第一步，将项目所需表头所在的总表读入并赋值，代码如下：

data_info=pd.read_csv('***********.csv(此处输入的是表头总表所在的绝对路径)')

第二步，将所有表的相关表头信息分开从总表头表中提取出来并分别进行赋值

columns_info=data_info[data_info['文件名'] =='数据表名']['字段英文名']
columns_debit=data_info[data_info['文件名'] =='数据表名']['字段英文名']
columns_credit=data_info[data_info['文件名'] =='数据表名']['字段英文名']

第三步，将所需要处理的所有dat表进行读入训练集和测试集：

训练集：df_basicinfo=pd.read_table('此处为dat表所在地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
df_debit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
df_credit=pd.read_table('此处为dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
测试集：test_a_basicinfo=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
test_a_debit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')
test_a_credit=pd.read_table('dat表所在的地址/表的名称.dat',sep='\|@\|',header=None,engine='python')

第四步，将表头分别在每张表中进行显示（以列表的形式）

df_basicinfo.columns= (list(columns_info))
df_credit.columns= (list(columns_credit))
df_debit.columns= (list(columns_debit))
test_a_basicinfo.columns= (list(columns_info_notarget))
test_a_credit.columns= (list(columns_credit))
test_a_debit.columns= (list(columns_debit))

注意：

1.删除列的时候为axis=0,删除行的时候axis=1 *.drop(,axis=0)

2.表名.describe()表示是查看表的信息

3.表名.shape表示的是查看表多少行和列 4.aa[‘cust_no’] == 85115，该句表示的是查找该表中值为85115 出现的次数

5.合并表的代码是pd.merge(表一，表二，on=“此处填写的是两张表之间通过哪个字段进行连接，比如通过id”)

6.查看超过100列的表的所有列信息 m.info(verbose=True,null_counts=True) （m是表，该表大于100列）

具体可以参考本人的博客文章,链接如下:突破自我的王小懒的博客

使用python中的库对数据处理时需要用到python中的pandas和numpy

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

使用python中的库对数据处理时需要用到python中的pandas和numpy

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像