信用评分系统运行原理中篇-分箱逻辑(2)

简介: 信用评分系统运行原理中篇-分箱逻辑(2)

详细分析分箱逻辑


参数分析


  • train.SeriousDlqin2yrs 对应函数中的X值


61003     0
26974     0
64962     0
22271     0
21614     0
         ..
133033    0
123509    0
18246     0
28850     0
16172     0


第一列参数 表示 一行索引值 可以理解成唯一主键id
第二列参数 表示 真实值 0表示坏客户 ,1 表示好客户


  • train.RevolvingUtilizationOfUnsecuredLines 对应函数中的Y值


RevolvingUtilizationOfUnsecuredLines 信用卡和个人信用额度的总余额,除了房地产和没有分期付款债务,如汽车贷款除以信用额度


61003     0.119104
26974     0.042524
64962     0.067740
22271     0.866513
21614     1.000000
            ...   
133033    0.367954
123509    0.031879
18246     0.090163
28850     1.644518
16172     0.160312


第一列是行索引值
第二列表示总额度


函数实现逻辑分析


Y.sum() 表示好人总计
Y.count() 表示所有人
Y.count() - good 表示坏人个数
a、 循环初始条件:r = 0,n=10
b、 while循环条件:np.abs(r)<1
取绝对值
c-1、 循环过程中使用 斯皮尔曼等级相关系数 算法重新计算r值
c-2、 每次循环:n = n - 1
第一次循环:r=0
np.abs(0)==0 进入循环体
这个是对训练集X进行顺序排名 重复的值 谁出现在前面  就先排谁
X.rank(method="first")


这里简单介绍下 rank排名函数和qcut\cut函数


理解了这些函数的作用就可以更好的理解分箱算法对于数据处理的过程


  • rank函数


举一个简单的例子
有一个数据源 字段:班级、姓名、成绩


image.png


目的:找出每个班级中排名第二的学生信息
需要做的步骤:
1、根据班级分组
2、每个组计算排名
3、筛选出排名为第二的学生
此时对于相同成绩的同学如何排名
a 顺序排名 先到先得
李四和王五的成绩都为30,但是李四出现在王五的前面,所以李四的排名靠前
当method取值为min,max,average时,都是要参考“顺序排名”的)


image.png


image.png


rank函数取值范围
‘average’,’first’,’min’, ‘max’,’dense’
min和max是跳跃排名的一种
关于average,成绩相同时,取顺序排名中所有名次之和除以该成绩的个数,即为该成绩的名次;比如上述排名中,30排名为2,3,那么 30的排名 = (2+3)/2=2.5,成绩为50的同学只有1个,且排名为1,那50的排名就位1/1=1。
关于max,和min一样也是跳跃排名的一种,成绩相同时取顺序排名中排名最大的作为该成绩的名次,在顺序排名中,30最大的排名为3,那么当参数为max时,30的排名=3,此时,李四和王五的排名都为第3名了。


  • qcut函数


跟cut()按照变量的值对变量进行分割不同, qcut()是按变量的数量来对变量进行分割,并且尽量保证每个分组里变量的个数相同
例子:把数据由小到大分成四组,并且让每组数据的数量相同
# 把变量由小到大分成四组,并且让每组变量的数量相同
d_qcut = d.copy()
d_qcut['qcut_group'] = pd.qcut(d_qcut['number'], 4)
d_qcut


image.png


image.png

相关文章
|
1月前
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
48 0
|
6月前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
|
6月前
|
数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)
|
6月前
|
C++
【SPSS】两独立样本T检验分析详细操作教程(附案例实战)
【SPSS】两独立样本T检验分析详细操作教程(附案例实战)
1178 0
|
6月前
|
C++
【SPSS】两独立样本的曼-惠特尼U检验详细操作教程(附案例实战)
【SPSS】两独立样本的曼-惠特尼U检验详细操作教程(附案例实战)
1624 0
|
6月前
逻辑模型—第一性原理
逻辑模型—第一性原理
|
6月前
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
197 0
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
|
算法 机器人 数据挖掘
量化合约套利机器人策略开发部署执行逻辑源码实例分析
量化合约套利机器人策略开发部署执行逻辑源码实例分析
|
算法 搜索推荐 数据可视化
异动分析技术解决方案—异动归因之指标拆解
唯一不变的是变化, 在拥抱它前,请事先探知、归因、并充分准备。 在相对完善的指标体系建设背景下,我们需要通过指标以及指标波动的解读来描述、追踪、推动业务。当一个指标波动时,我们首先需要从业务视角判断其波动是否异常,即异动检测,其次判断异常背后的原因是什么,即异动归因。 归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。 我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对可能产生异动的维度进行全局量化,增强可比性,明确下一步的业务行动点的优先级。自动化异变归因的目的是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔
8009 2
下一篇
无影云桌面