Py之scorecardpy:scorecardpy的简介、安装、使用方法之详细攻略

简介: Py之scorecardpy:scorecardpy的简介、安装、使用方法之详细攻略


目录

scorecardpy的简介

scorecardpy的安装

scorecardpy的使用方法

1、基础案例


scorecardpy的简介

      Scorecardpy,由谢士晨博士开发,这个包是 R 包评分卡的 python 版本。 其目标是通过为一些常见任务提供功能,使传统信用风险评分卡模型的开发更容易、更高效

  • 数据切分(split_df)
  • 变量选择(iv,var_filter)
  • 证据权重 (woe) 分箱(woebin、woebin_plot、woebin_adj、woebin_ply)
  • 评分卡缩放 (scorecard, scorecard_ply)
  • 性能评估(perf_eva、perf_psi)

Githubhttps://github.com/shichenxie/scorecardpy

案例

scorecardpy库的使用简介 - 知乎

评分卡建模工具scorecardpy全解读 - 知乎

scorecardpy的安装

pip install scorecardpy

 

scorecardpy的使用方法

1、基础案例

1. # Traditional Credit Scoring Using Logistic Regression
2. import scorecardpy as sc
3. 
4. # data prepare ------
5. # load germancredit data
6. dat = sc.germancredit()
7. 
8. # filter variable via missing rate, iv, identical value rate
9. dt_s = sc.var_filter(dat, y="creditability")
10. 
11. # breaking dt into train and test
12. train, test = sc.split_df(dt_s, 'creditability').values()
13. 
14. # woe binning ------
15. bins = sc.woebin(dt_s, y="creditability")
16. # sc.woebin_plot(bins)
17. 
18. # binning adjustment
19. # # adjust breaks interactively
20. # breaks_adj = sc.woebin_adj(dt_s, "creditability", bins) 
21. # # or specify breaks manually
22. breaks_adj = {
23. 'age.in.years': [26, 35, 40],
24. 'other.debtors.or.guarantors': ["none", "co-applicant%,%guarantor"]
25. }
26. bins_adj = sc.woebin(dt_s, y="creditability", breaks_list=breaks_adj)
27. 
28. # converting train and test into woe values
29. train_woe = sc.woebin_ply(train, bins_adj)
30. test_woe = sc.woebin_ply(test, bins_adj)
31. 
32. y_train = train_woe.loc[:,'creditability']
33. X_train = train_woe.loc[:,train_woe.columns != 'creditability']
34. y_test = test_woe.loc[:,'creditability']
35. X_test = test_woe.loc[:,train_woe.columns != 'creditability']
36. 
37. # logistic regression ------
38. from sklearn.linear_model import LogisticRegression
39. lr = LogisticRegression(penalty='l1', C=0.9, solver='saga', n_jobs=-1)
40. lr.fit(X_train, y_train)
41. # lr.coef_
42. # lr.intercept_
43. 
44. # predicted proability
45. train_pred = lr.predict_proba(X_train)[:,1]
46. test_pred = lr.predict_proba(X_test)[:,1]
47. 
48. # performance ks & roc ------
49. train_perf = sc.perf_eva(y_train, train_pred, title = "train")
50. test_perf = sc.perf_eva(y_test, test_pred, title = "test")
51. 
52. # score ------
53. card = sc.scorecard(bins_adj, lr, X_train.columns)
54. # credit score
55. train_score = sc.scorecard_ply(train, card, print_step=0)
56. test_score = sc.scorecard_ply(test, card, print_step=0)
57. 
58. # psi
59. sc.perf_psi(
60.   score = {'train':train_score, 'test':test_score},
61.   label = {'train':y_train, 'test':y_test}
62. )


相关文章
|
机器学习/深度学习 存储
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
3807 0
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
|
人工智能 C++
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
|
机器学习/深度学习 数据采集 测试技术
Toad:基于 Python 的标准化评分卡模型(上)
在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。
2688 0
Toad:基于 Python 的标准化评分卡模型(上)
|
10月前
|
Python
在VScode环境下配置Python环境的方法
经过上述步骤,你的VSCode环境就已经配置好了。请尽情享受这扇你为自己开启的知识之窗。如同你在冒险世界中前行,你的探索之路只有越走越广,你获得的知识只会越来越丰富,你的能力只会越来越强。
952 37
|
数据挖掘 索引 Python
Pandas数据读取:CSV文件
Pandas 是 Python 中强大的数据分析库,`read_csv` 函数用于从 CSV 文件中读取数据。本文介绍 `read_csv` 的基本用法、常见问题及其解决方案,并通过代码案例详细说明。涵盖导入库、读取文件、指定列名和分隔符、处理文件路径错误、编码问题、大文件读取、数据类型问题、日期时间解析、空值处理、跳过行、指定索引列等。高级用法包括自定义列名映射、处理多行标题和注释行。希望本文能帮助你更高效地使用 Pandas 进行数据读取和处理。
1521 13
|
JSON Java API
jjwt使用说明-笔记
这篇文章介绍了如何使用jjwt库在Java中生成和验证JSON Web Tokens (JWT)。文章提供了在Maven项目中添加jjwt依赖的步骤,生成token的方法,以及如何验证token的示例代码。此外,还包含了一些关于token标准载荷和自定义载荷的说明,以及如何处理token验证过程中可能遇到的异常。
jjwt使用说明-笔记
|
JSON API 数据安全/隐私保护
CURL 发送POST请求
CURL 发送POST请求
4470 0
|
机器学习/深度学习 算法 数据安全/隐私保护
两万多字诠释python经典基础算法之100题【内含思路、程序和答案】【python小白必备】
本文为最最基础的python基础算法题目、思路和答案,适合python初学者使用,可以当作python入门算法工具书,虽然不具有高深的算法,但是都是企业级算法用的频率最多的,这也是学好高级算法的必经之路。希望收藏、关注、点赞哦。
|
机器学习/深度学习 数据可视化 决策智能
Python中使用Gradient Boosting Decision Trees (GBDT)进行特征重要性分析
Python中使用Gradient Boosting Decision Trees (GBDT)进行特征重要性分析
562 0
|
存储 分布式计算 Hadoop
一文了解Apache Hudi架构、工具和最佳实践
一文了解Apache Hudi架构、工具和最佳实践
4966 0