特征工程-个人信用评估

简介: 可以用于形成特征矩阵的共有5个表:1.用户基本属性表2.银行流水记录表3.用户浏览行为表4.信用卡账单记录表5.放款时间信息表1.用户基本属性表字段注释1用户id整数2性别枚举值(0表示性别未知)3职业枚举值4教育程度枚举值5婚姻状况枚举值6户口类型枚举值1.

可以用于形成特征矩阵的共有5个表:
1.用户基本属性表
2.银行流水记录表
3.用户浏览行为表
4.信用卡账单记录表
5.放款时间信息表

1.用户基本属性表

字段 注释
1 用户id 整数
2 性别 枚举值(0表示性别未知)
3 职业 枚举值
4 教育程度 枚举值
5 婚姻状况 枚举值
6 户口类型 枚举值

1.职业做One-Hot编码
2.教育程度做One-Hot编码
3.婚姻状况做One-Hot编码
4.户口类型做One-Hot编码

2.银行流水记录表

字段 注释
1 用户id 整型
2 时间戳 整型(0表示未知)
3 交易类型 枚举值(1表示收入,0表示支出)
4 交易金额 浮点型
5 工资收入标记 枚举值(1表示工资收入)

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.工资收入标记做One-Hot编码
5.交易类型与交易金额做正负数值交易金额字段

3.用户浏览行为表

字段 注释
1 用户id 整型
2 时间戳 整数(0表示未知)
3 浏览行为数据 整型
4 浏览子行为编号 枚举型

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.浏览子行为做One-Hot编码
5.浏览子行为做统计计数

4.信用卡账单记录表

字段 注释
1 用户id 整型
2 账单时间戳 整数(0表示未知)
3 银行id 枚举型
4 上期账单金额 浮点型
5 上期还款金额 浮点型
6 信用卡额度 浮点型
7 本期账单余额 浮点型
8 本期账单最低还款额 浮点型
9 消费笔数 整数
10 本期账单金额 浮点型
11 调整金额 浮点型
12 循环利息 浮点型
13 可用金额 浮点型
14 预借现金额度 浮点型
15 还款状态 枚举值

1.账单时间戳按星期分箱
2.账单时间戳按月分箱
3.账单时间戳是否工作日
4.银行id做One-Hot编码
5.信用卡额度是否低于某个值
6.上期还款金额是否低于某个值
7.上期账单金额是否高于某个值
8.本期账单余额是否高于某个值
9.本期最低还款额是否高于某个值
10.消费笔数是否高于某个值
11.本期账单金额是否高于某个值
12.循环利息是否高于某个值
13.可用金额是否高于某个值
14.预借现金额度是否高于某个值
15.还款状态做One-Hot编码
16.信用卡计数
17.每个用户在不同银行的每张信用卡信用额度的聚合计算,包括最大值、最小值、均值和标准差。

5.放款时间表

字段 注释
1 用户id 整型
2 放款时间 整数

1 放款时间按星期分箱
2 放款时间按月分箱
3 放款时间是否工作日
4.放款时间期间是否有银行账单或者信用账单突变

6.总结

img_c73ef07bddb470e7e146efff21df4d60.png
特征工程.png

特征工程中的大部分特征可以分为2类:
1.基于时间窗口对连续变量做统计特征,这是特征工程中常用的方法,尤其是对于一个用户对应多条记录的数据表。第一,通过这些统计特征可以提取出用户在某个变量上大致的分布情况;第二,这为特征工程带来大量细分化且包含信息量大的特诊。
2.每个用户在特殊时间点的具体特征值,这些时间点包括最初、最终以及贷款前后,这些时间点所包含的信息量比一般时间点要大,与预测目标值的关联程度也更大。

目录
相关文章
|
6月前
|
机器学习/深度学习 测试技术
大模型开发:描述交叉验证以及为什么在模型评估中使用它。
【4月更文挑战第24天】交叉验证是评估机器学习模型性能的方法,通过将数据集分成训练集和多个子集(折叠)进行多次训练验证。它能减少过拟合风险,提供更可靠的性能估计,用于参数调优,并减少小数据集或噪声带来的随机性影响。通过汇总多轮验证结果,得到模型的整体性能估计。
63 7
|
6月前
|
机器学习/深度学习 算法 Python
LightGBM中的特征选择与重要性评估
LightGBM中的特征选择与重要性评估【2月更文挑战第1天】
1100 0
|
4月前
|
机器学习/深度学习 人工智能
8个特征工程技巧提升机器学习预测准确性
8个特征工程技巧提升机器学习预测准确性
106 6
8个特征工程技巧提升机器学习预测准确性
|
3月前
|
机器学习/深度学习 人工智能 运维
机器学习中的模型评估与选择
【8月更文挑战第15天】在机器学习领域,一个关键的挑战是如何从众多模型中选择出最佳者。本文将探讨模型评估的重要性和复杂性,介绍几种主流的模型评估指标,并讨论如何在实际应用中进行有效的模型选择。通过分析不同的评估策略和它们在实际问题中的应用,我们将揭示如何结合业务需求和技术指标来做出明智的决策。文章旨在为读者提供一个清晰的框架,以理解和实施机器学习项目中的模型评估和选择过程。
|
4月前
|
机器学习/深度学习
机器学习模型评估指标详解
【7月更文挑战第14天】选择合适的评估指标对于准确评估机器学习模型的性能至关重要。在实际应用中,需要根据具体任务场景和数据特点,综合考虑多种评估指标,以全面评估模型的性能。同时,还需要注意评估指标的局限性,避免单一指标带来的误导。
|
6月前
|
机器学习/深度学习 监控 数据可视化
模型评估
“【5月更文挑战第27天】”
52 2
|
6月前
|
机器学习/深度学习 BI
机器学习模型评估指标总结
机器学习模型评估指标总结
117 2
|
6月前
|
机器学习/深度学习 算法 数据挖掘
如何评估模型性能以进行模型选择?
【5月更文挑战第4天】如何评估模型性能以进行模型选择?
129 5
|
机器学习/深度学习
评估方法&线性模型【机器学习】
评估方法&线性模型【机器学习】
49 1
|
6月前
|
机器学习/深度学习 数据采集 算法
使用scikit-learn进行分类:模型选择与评估
【4月更文挑战第17天】本文介绍了使用scikit-learn进行分类任务,包括模型选择和评估。scikit-learn提供多种分类算法如逻辑回归、SVM、决策树等。选择模型需理解问题、预处理数据、设置基准模型、交叉验证、特征重要性分析和调参。评估模型性能有准确率、精确率、召回率、F1分数和混淆矩阵。通过训练、预测和计算指标分析模型效果。示例展示了随机森林分类器的应用。选择和评估模型需根据具体问题和数据集进行。