项目实现流程
源数据
获取了某电信运营商第一季度3个月内的客户数据,数据的IS_LOST列为用户的缺少情况。
数据清洗
清洗部分使用pycharm编译软件将数据表导入,在使用info()方法查看数据详情
df=pd.read_csv(open(r’E:\Data\Original_data.csv))df.info()结果如下
可以看出每列的数据类型再对数据进行去重处理,针对MONTH_ID,USER_ID 2列进行去重,并保留去重的第一项df.drop_duplicates(subset=['MONTH_ID','USER_ID'],keep="first",inplace=True)查看数据的缺少情况df.isnull().sum()
数据探索性分析
建模预测
将处理好的数据,切分为7:37为训练数据,3为预测数据,然后上传至云平台预测流失我们选择的是决策树算法
其中修改元数据节点,需要将,数据设置为分析列与目标列
运行得到训练模型:
再使用测试数据应用模型,并输出预测表:
右侧起第四列为数据原值,第二列为预测值,第一列为预测成功与否,通过计算Y的比例得出预测成功准确率:
编写代码调用分类算法建模使用GridSearchCV调整模型参数得到最优的模型:
模型评分比较:
决策树模型评估:五折交叉验证,混淆矩阵,ROC曲线,AUC值,准确率,精确度,召回率,F1值,KS值:
决策树模型预测流失风险较高的用户人数:
后期基于阿里云机器学习PAI实现此项目功能。