【阿旭机器学习实战】【24】信用卡用户流失预测实战

简介: 【阿旭机器学习实战】【24】信用卡用户流失预测实战

问题描述


依据某国外匿名化处理后的真实数据集,通过建模,判断该用户是否已经流失。


1. 读取数据并分离特征与标签


import pandas as pd
import numpy as np
# 读取数据
train_data = pd.read_csv('./Churn-Modelling.csv')
test_data = pd.read_csv('./Churn-Modelling-Test-Data.csv')
x_train = train_data.iloc[:,:-1]
y_train = train_data.iloc[:,-1].astype(int)
x_test = test_data.iloc[:,:-1]
y_test = test_data.iloc[:,-1].astype(int)
x_train.head()


image.png


数据说明:


RowNumber:行号

CustomerID:用户编号

Surname:用户姓名

CreditScore:信用分数

Geography:用户所在国家/地区

Gender:用户性别

Age:年龄

Tenure:当了本银行多少年用户

Balance:存贷款情况

NumOfProducts:使用产品数量

HasCrCard:是否有本行信用卡

IsActiveMember:是否活跃用户

EstimatedSalary:估计收入

Exited:是否已流失,这将作为我们的标签数据


2.特征工程


2.1 删除无用特征


# 删除前三列没用的数据
x_train = x_train.drop(labels=x_train.columns[[0,1,2]], axis=1)
x_test = x_test.drop(labels=x_test.columns[[0,1,2]], axis=1)
x_train.head()

image.png


y_train[:5]
0    1
1    0
2    1
3    0
4    0
Name: Exited, dtype: int32


2.2 将字符串特征进行编码


# 国家与性别两列为非数值型数据,使用LabelEncoder进行编码,将其转换为数值数据
from sklearn.preprocessing import LabelEncoder
Lb1 = LabelEncoder()
x_train.iloc[:,1] = Lb1.fit_transform(x_train.iloc[:,1])
x_test.iloc[:,1] = Lb1.transform(x_test.iloc[:,1])
Lb2 = LabelEncoder()
x_train.iloc[:,2] = Lb2.fit_transform(x_train.iloc[:,2])
x_test.iloc[:,2] = Lb2.transform(x_test.iloc[:,2])
x_train[:5]

image.png


x_train.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
CreditScore        10000 non-null int64
Geography          10000 non-null int64
Gender             10000 non-null int64
Age                10000 non-null int64
Tenure             10000 non-null int64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
dtypes: float64(2), int64(8)
memory usage: 781.3 KB


2.3 对特征数据进行归一化


from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)


x_train[:5]


array([[-0.32622142, -0.90188624, -1.09598752,  0.29351742, -1.04175968,
        -1.22584767, -0.91158349,  0.64609167,  0.97024255,  0.02188649],
       [-0.44003595,  1.51506738, -1.09598752,  0.19816383, -1.38753759,
         0.11735002, -0.91158349, -1.54776799,  0.97024255,  0.21653375],
       [-1.53679418, -0.90188624, -1.09598752,  0.29351742,  1.03290776,
         1.33305335,  2.52705662,  0.64609167, -1.03067011,  0.2406869 ],
       [ 0.50152063, -0.90188624, -1.09598752,  0.00745665, -1.38753759,
        -1.22584767,  0.80773656, -1.54776799, -1.03067011, -0.10891792],
       [ 2.06388377,  1.51506738, -1.09598752,  0.38887101, -1.04175968,
         0.7857279 , -0.91158349,  0.64609167,  0.97024255, -0.36527578]])


3. 建模预测与评估


# 使用逻辑回归进行建模
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression()
sgd=SGDClassifier()
lr.fit(x_train,y_train)
lr_y_predict=lr.predict(x_test)
#使用逻辑斯蒂回归墨香自带的评分函数score获得模型在测试集上的准确性结果
print('LogisticRegression测试集准确度:',lr.score(x_test,y_test))
print('LogisticRegression训练集准确度:',lr.score(x_train,y_train))
LogisticRegression测试集准确度: 0.761
LogisticRegression训练集准确度: 0.809
from sklearn.metrics import classification_report
#使用classificaion_report模块获得LogisticRegression其他三个指标的结果
print(classification_report(y_test,lr_y_predict,target_names=['Exited','UnExited']))
             precision    recall  f1-score   support
     Exited       0.77      0.97      0.86       740
   UnExited       0.68      0.15      0.25       260
avg / total       0.74      0.76      0.70      1000


结果表明该模型准确率只有76%,还有一定的优化空间。

相关文章
|
4月前
|
JSON 算法 数据可视化
5.3 目标检测YOLOv3实战:叶病虫害检测——损失函数、模型训练
这篇文章详细介绍了使用YOLOv3模型进行叶病虫害检测时的损失函数配置、模型训练过程、评估方法以及模型预测步骤,并提供了相应的代码实现和可能的改进方案。
|
28天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
1月前
|
机器学习/深度学习 TensorFlow API
机器学习实战:TensorFlow在图像识别中的应用探索
【10月更文挑战第28天】随着深度学习技术的发展,图像识别取得了显著进步。TensorFlow作为Google开源的机器学习框架,凭借其强大的功能和灵活的API,在图像识别任务中广泛应用。本文通过实战案例,探讨TensorFlow在图像识别中的优势与挑战,展示如何使用TensorFlow构建和训练卷积神经网络(CNN),并评估模型的性能。尽管面临学习曲线和资源消耗等挑战,TensorFlow仍展现出广阔的应用前景。
59 5
|
22天前
|
机器学习/深度学习 人工智能 TensorFlow
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
62 0
|
25天前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
36 0
|
2月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
90 2
|
2月前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
113 1
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧1
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
56 5
|
2月前
|
机器学习/深度学习 数据采集 分布式计算
【Python篇】深入机器学习核心:XGBoost 从入门到实战
【Python篇】深入机器学习核心:XGBoost 从入门到实战
161 3
|
2月前
|
机器学习/深度学习 算法 数据可视化
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧2
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
43 1