预测集字段: uid transaction_datetime
- 查看数据的维度
model_vars.head(2)
- 设置数据框展示列数
pd.set_option( 'display.max_columns' , 100)
- 拼接样本特征和样本结果作为训练数据有 target(实际结果)
transaction_risk_sample = transaction_risk_sample.merge(model_vars, on = 'uid', how = 'left') 样本特征表model_vars 样本结果表是transaction_risk_sample 两表以uid字段关联查询 并以左表(样本结果表transaction_risk_sample为基准)
查看拼接之后的样本结果表
uid transaction_datetime time_sinc_login_sec timelong_lst_login log_from_lst_login city_lst_login result_lst_login type_lst_login scan_login_lst_login security_login_lst_login cnt_login sum_timelong avg_timelong cnt_log_from cnt_ip cnt_city cnt_result cnt_result1_login cnt_type1_login cnt_type2_login cnt_type3_login cnt_scan1_login cnt_scan0_login cnt_sec1_login cnt_sec0_login rat_timelong_lst_avg rat_result1_login rat_type1_login rat_type2_login rat_type3_login rat_scan1_login rat_scan0_login rat_sec1_login
- 为了保持训练样本和预测样本数据格式一致 做增删操作
此处预测样本中没有sample列 故将此从训练样本中删除 del transaction_risk_sample['sample']
- 观察训练样本中0/1分布情况
transaction_risk_sample['target'].value_counts() 0有19133条数据 1有657行数据
- 分析特征变量
将变量名转换为列表 便于后续的循环遍历
var_all = transaction_risk_sample.columns.tolist()









