目录
GiveMeSomeCredit数据集的简介
银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。
基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。
Serious Dlqin 2yrs |
Revolving UtilizationOf Unsecured Lines |
age | Number Of Time 30-59 Days Past Due Not Worse |
DebtRatio | Monthly Income |
Number OfOpen Credit Lines And Loans |
Number OfTimes 90Days Late |
Number Real Estate Loans Or Lines |
NumberOfTime60-89DaysPastDueNotWorse | NumberOfDependents | |
1 | 1 | 0.766126609 | 45 | 2 | 0.802982129 | 9120 | 13 | 0 | 6 | 0 | 2 |
2 | 0 | 0.957151019 | 40 | 0 | 0.121876201 | 2600 | 4 | 0 | 0 | 0 | 1 |
3 | 0 | 0.65818014 | 38 | 1 | 0.085113375 | 3042 | 2 | 1 | 0 | 0 | 0 |
4 | 0 | 0.233809776 | 30 | 0 | 0.036049682 | 3300 | 5 | 0 | 0 | 0 | 0 |
5 | 0 | 0.9072394 | 49 | 1 | 0.024925695 | 63588 | 7 | 0 | 1 | 0 | 0 |
6 | 0 | 0.213178682 | 74 | 0 | 0.375606969 | 3500 | 3 | 0 | 1 | 0 | 1 |
7 | 0 | 0.305682465 | 57 | 0 | 5710 | NA | 8 | 0 | 3 | 0 | 0 |
8 | 0 | 0.754463648 | 39 | 0 | 0.209940017 | 3500 | 8 | 0 | 0 | 0 | 0 |
9 | 0 | 0.116950644 | 27 | 0 | 46 | NA | 2 | 0 | 0 | 0 | NA |
10 | 0 | 0.189169052 | 57 | 0 | 0.606290901 | 23684 | 9 | 0 | 4 | 0 | 2 |
11 | 0 | 0.644225962 | 30 | 0 | 0.30947621 | 2500 | 5 | 0 | 0 | 0 | 0 |
12 | 0 | 0.01879812 | 51 | 0 | 0.53152876 | 6501 | 7 | 0 | 2 | 0 | 2 |
13 | 0 | 0.010351857 | 46 | 0 | 0.298354075 | 12454 | 13 | 0 | 2 | 0 | 2 |
14 | 1 | 0.964672555 | 40 | 3 | 0.382964747 | 13700 | 9 | 3 | 1 | 1 | 2 |
15 | 0 | 0.019656581 | 76 | 0 | 477 | 0 | 6 | 0 | 1 | 0 | 0 |
16 | 0 | 0.548458062 | 64 | 0 | 0.209891754 | 11362 | 7 | 0 | 1 | 0 | 2 |
17 | 0 | 0.061086118 | 78 | 0 | 2058 | NA | 10 | 0 | 2 | 0 | 0 |
18 | 0 | 0.166284079 | 53 | 0 | 0.18827406 | 8800 | 7 | 0 | 0 | 0 | 0 |
19 | 0 | 0.221812771 | 43 | 0 | 0.527887839 | 3280 | 7 | 0 | 1 | 0 | 2 |
20 | 0 | 0.602794411 | 25 | 0 | 0.065868263 | 333 | 2 | 0 | 0 | 0 | 0 |
1、数据集基本描述
Variable Name |
Description/EDA |
Type |
EDA |
|
11 |
SeriousDlqin2yrs |
Person experienced 90 days past due delinquency or worse 逾期90天或更糟 |
Y/N |
Serious Delinquent in 2 year,也就是2年内发生严重逾期,其中”严重“定义为逾期超过90天。 分析:定义为模型的label,一般逾期超过90天以上,客户标记为1(坏客户),其余标记为0(好客户)。例如你2018年1月1号开卡,每个月1号是还款日。例如你2019年4月1号是你的还款日,然后你在7月1号前都没还钱,那这时候逾期就超过90天了,你的数据标签就为1。 本数据集中,大约6%的样本违约。 |
1 |
age |
Age of borrower in years 借款人年龄(以年为单位) |
integer |
可知有更多的年轻人违约,而且总体分布似乎还不错 |
2 |
MonthlyIncome |
Monthly income 月收入 |
real |
存在缺失值,29731(19.82%) 数值分布偏斜,我们可以考虑用中位数进行插补。 我们还可以考虑用正态分布值及其均值和标准差进行插补。 |
3 |
NumberOfDependents |
Number of dependents in family excluding themselves (spouse, children etc.) 家庭受扶养人数(配偶、子女等除外) |
integer |
存在缺失值,3924 (2.61%) 我们可以考虑用它的众数进行插补,众数为零。 |
4 |
DebtRatio |
Monthly debt payments, alimony,living costs divided by monthy gross income 每月的债务支付,赡养费,生活费除以每月的总收入 |
percentage |
2.5%的客户的负债大约是他们所拥有资产的3490倍或更多; 对于月收入在2.5%的人来说,只有185人的月收入值是0或1; 这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。 |
5 |
NumberOfOpenCredit LinesAndLoans |
Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards) 公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡) |
integer |
|
6 |
NumberRealEstate LoansOrLines |
Number of mortgage and real estate loans including home equity lines of credit 按揭和房地产贷款的数量,包括房屋净值信贷额度 |
integer |
|
7 |
RevolvingUtilization |
Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits 除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和 |
percentage |
定义为所欠款项总额与总信用额度之比率; 分析:值的分布是右偏的,考虑删除离群值; 处理逻辑:预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。 因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。 |
8 |
NumberOfTime30-59DaysPastDueNotWorse |
Number of times borrower has been 30-59 days past due but no worse in the last 2 years. 借款人逾期30-59天的次数,但在过去两年没有更糟。 |
integer |
有趣的是,不存在逾期(13~96)次的样本 |
9 |
NumberOfTime60-89DaysPastDueNotWorse |
Number of times borrower has been 60-89 days past due but no worse in the last 2 years. 借款人逾期60-89天的次数,但在过去两年没有更糟。 |
integer |
有趣的是,不存在逾期(11~96)次的样本 |
10 |
NumberOfTimes |
Number of times borrower has been 90 days or more past due. 借款人逾期90天或以上的次数。 |
integer |
有趣的是,不存在逾期(17~96)次的样本 详见EDA分析后总结 |
2、EDA分析后总结
通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的。
NumberOfTime30-59DaysPastDueNotWorse |
NumberOfTime60-89DaysPastDueNotWorse |
NumberOfTimes90DaysLate |
0 126018 1 16033 2 4598 3 1754 4 747 5 342 6 140 7 54 8 25 9 12 10 4 11 1 12 2 13 1 96 5 98 264 |
0 142396 1 5731 2 1118 3 318 4 105 5 34 6 16 7 9 8 2 9 1 11 1 96 5 98 264 |
0 141662 1 5243 2 1555 3 667 4 291 5 131 6 80 7 38 8 21 9 19 10 8 11 5 12 2 13 4 14 2 15 2 17 1 96 5 98 264 |
3、数据集基本形状
1. # Column Non-Null Count Dtype 2. --- ------ -------------- ----- 3. 0 Unnamed: 0 150000 non-null int64 4. 1 SeriousDlqin2yrs 150000 non-null int64 5. 2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float64 6. 3 age 150000 non-null int64 7. 4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64 8. 5 DebtRatio 150000 non-null float64 9. 6 MonthlyIncome 120269 non-null float64 10. 7 NumberOfOpenCreditLinesAndLoans 150000 non-null int64 11. 8 NumberOfTimes90DaysLate 150000 non-null int64 12. 9 NumberRealEstateLoansOrLines 150000 non-null int64 13. 10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64 14. 11 NumberOfDependents 146076 non-null float64 15. dtypes: float64(4), int64(8) 16. memory usage: 13.7 MB
Give Me Some Credit数据集的下载
数据集下载:Give Me Some Credit | Kaggle