Py之Optbinning:Optbinning的简介、安装、使用方法之详细攻略

简介: Py之Optbinning:Optbinning的简介、安装、使用方法之详细攻略


目录

Optbinning的简介

Optbinning的安装

Optbinning的使用方法

1、一键算IV

2、根据特定条件的初步变量筛选

3、分箱及可视化

4、模型结果展示:

5、评分卡转化:


Optbinning的简介

       Optbinning,OptBinning 是一个用 Python 编写的库,实现了一个严格而灵活的数学编程公式,以解决二进制、连续和多类目标类型的最佳分箱问题,并结合了以前未解决的约束。

       它是由西班牙Universitat Polit`ecnica de Catalunya, Barcelona 大学的guillermo navas palencia博士做的包。最佳分箱是将数值特征约束离散化到给定二进制目标的箱中,从而最大化诸如 Jeffrey 散度或 Gini 之类的统计数据。 分箱是二进制分类中常用的一种数据预处理技术,但当前支持约束的现有分箱算法列表缺乏处理流数据的方法。 在这Optbinning文章中,提出了一种新的可扩展、内存高效且强大的算法,用于在流设置中执行最佳分箱。 所描述的算法将在开源 python 库 OptBinning 0.7.0 版中实现。

Githubhttps://github.com/guillermo-navas-palencia/optbinning/

文档http://gnpalencia.org/optbinning/

论文:

Optimal counterfactual explanations for scorecard modelling. https://arxiv.org/abs/2104.08619

Optimal binning: mathematical programming formulation. http://arxiv.org/abs/2001.08025

博客: Optimal binning for streaming data. Optimal binning for streaming data

案例Tutorials — optbinning 0.14.0 documentation

Optbinning的安装

1. pip install optbinning
2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple optbinning

Optbinning的使用方法

1、一键算IV

IV

2、根据特定条件的初步变量筛选

1. selected_data = toad.selection.select(data,target = 'target', empty = 0.5, iv = 0.02, corr = 0.7, return_drop=True, exclude=['ID','month'])
2. final_data = toad.selection.stepwise(data_woe,target = 'target', estimator='ols', direction = 'both', criterion = 'aic', exclude = to_drop)

3、分箱及可视化

1. # Chi-squared fine binning
2. c = toad.transform.Combiner()
3. c.fit(data_selected.drop(to_drop, axis=1), y = 'target', method = 'chi', min_samples = 0.05)
4. print(c.export())
5. 
6. 
7. # Visualisation to check binning results
8. col = 'feature_name'
9. bin_plot(c.transform(data_selected[[col,'target']], labels=True), x=col, target='target')

4、模型结果展示:

toad.metrics.KS_bucket(pred_proba, final_data['target'], bucket=10, method = 'quantile')

5、评分卡转化:

1. card = toad.ScoreCard(
2.     combiner = c,
3.     transer = transer,
4.     class_weight = 'balanced',
5.     C=0.1,
6.     base_score = 600,
7.     base_odds = 35 ,
8.     pdo = 60,
9.     rate = 2
10. )
11. card.fit(final_data[col], final_data['target'])
12. print(card.export())

文章知识点与官方知识档案匹配,可进一步学习相关知识



相关文章
|
人工智能 C++
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
|
机器学习/深度学习 存储
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
3954 0
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
|
机器学习/深度学习 数据采集 测试技术
Toad:基于 Python 的标准化评分卡模型(上)
在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。
2841 0
Toad:基于 Python 的标准化评分卡模型(上)
|
机器学习/深度学习 算法 Python
LightGBM中的特征选择与重要性评估
LightGBM中的特征选择与重要性评估【2月更文挑战第1天】
3002 0
|
机器学习/深度学习 人工智能 项目管理
【机器学习】集成学习——Stacking模型融合(理论+图解)
【机器学习】集成学习——Stacking模型融合(理论+图解)
7722 1
【机器学习】集成学习——Stacking模型融合(理论+图解)
|
5月前
|
存储 弹性计算 固态存储
阿里云服务器4核16G收费标准和活动价格参考:u2a实例1291.80元起,通用型g9a实例4452.43元起
现在租用阿里云服务器4核16G价格是多少?目前通用算力型u2a实例,4核16G配置活动价格为1291.80元/1年起;通用型g9a实例4核16G配置活动价格为4452.43元/1年起。在阿里云的当前活动中,4核16G云服务器提供了多种实例规格供用户选择,不同实例规格及带宽的组合将带来不同的优惠价格。本文为大家整理汇总了截止目前阿里云服务器4核16G配置的实例规格收费标准与最新活动价格情况,以供参考。
1747 5
|
Shell Linux Ubuntu
解决在SecurecCRT登录后,发现方向键、backspace(退格键)、delete(删除键)为乱码的问题
问题:使用securecrt ssh到linux之后,backspace(退格键),delete(删除键),以及4个方向键都为乱码,不能正常使用。按tab键也没有自动补全文件名。 即: 按Backspace(退格键)和delete(删除键)屏幕显示的是:^H 按方向键则屏幕显示的是:^[[A^[[B^[[C^[[D 环境: SecureCRT8.
4872 0
|
机器学习/深度学习 数据采集 存储
零基础入门金融风控之贷款违约预测Task4:建模和调参
零基础入门金融风控之贷款违约预测Task4:建模和调参
291 1
anaconda下载安装,镜像源配置修改及虚拟环境的创建
这篇文章介绍了Anaconda的下载安装过程,包括Anaconda的简介、安装步骤、配置修改、创建虚拟环境以及一些常用命令的使用方法。文章还提供了如何修改conda的镜像源为国内镜像源以加速下载的步骤。
anaconda下载安装,镜像源配置修改及虚拟环境的创建
|
编解码 测试技术 API
SDK发布报告—保障SDK的质量与稳定性
SDK发布报告的透明化,能够有效为产品方提供发布策略、为客户提供SDK升级指导,极大保障SDK的质量与稳定性。
11476 6
SDK发布报告—保障SDK的质量与稳定性