Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

简介: Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略


目录

GiveMeSomeCredit数据集的简介

1、数据集基本描述

2、EDA后总结

3、数据集基本形状

Give Me Some Credit数据集的下载

Give Me Some Credit数据集的使用方法


GiveMeSomeCredit数据集的简介

      银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。

      基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。

Serious

Dlqin

2yrs

Revolving

UtilizationOf

Unsecured

Lines

age

Number

Of

Time

30-59

Days

Past

Due

Not

Worse

DebtRatio

Monthly

Income

Number

OfOpen

Credit

Lines

And

Loans

Number

OfTimes

90Days

Late

Number

Real

Estate

Loans

Or

Lines

NumberOfTime60-89DaysPastDueNotWorse NumberOfDependents
1 1 0.766126609 45 2 0.802982129 9120 13 0 6 0 2
2 0 0.957151019 40 0 0.121876201 2600 4 0 0 0 1
3 0 0.65818014 38 1 0.085113375 3042 2 1 0 0 0
4 0 0.233809776 30 0 0.036049682 3300 5 0 0 0 0
5 0 0.9072394 49 1 0.024925695 63588 7 0 1 0 0
6 0 0.213178682 74 0 0.375606969 3500 3 0 1 0 1
7 0 0.305682465 57 0 5710 NA 8 0 3 0 0
8 0 0.754463648 39 0 0.209940017 3500 8 0 0 0 0
9 0 0.116950644 27 0 46 NA 2 0 0 0 NA
10 0 0.189169052 57 0 0.606290901 23684 9 0 4 0 2
11 0 0.644225962 30 0 0.30947621 2500 5 0 0 0 0
12 0 0.01879812 51 0 0.53152876 6501 7 0 2 0 2
13 0 0.010351857 46 0 0.298354075 12454 13 0 2 0 2
14 1 0.964672555 40 3 0.382964747 13700 9 3 1 1 2
15 0 0.019656581 76 0 477 0 6 0 1 0 0
16 0 0.548458062 64 0 0.209891754 11362 7 0 1 0 2
17 0 0.061086118 78 0 2058 NA 10 0 2 0 0
18 0 0.166284079 53 0 0.18827406 8800 7 0 0 0 0
19 0 0.221812771 43 0 0.527887839 3280 7 0 1 0 2
20 0 0.602794411 25 0 0.065868263 333 2 0 0 0 0

1、数据集基本描述

Variable Name

Description/EDA

Type

EDA

11

SeriousDlqin2yrs

Person experienced 90 days past due delinquency or worse

逾期90天或更糟

Y/N

Serious Delinquent in 2 year,也就是2年内发生严重逾期,其中”严重“定义为逾期超过90天。

分析:定义为模型的label,一般逾期超过90天以上,客户标记为1(坏客户),其余标记为0(好客户)。例如你2018年1月1号开卡,每个月1号是还款日。例如你2019年4月1号是你的还款日,然后你在7月1号前都没还钱,那这时候逾期就超过90天了,你的数据标签就为1。

本数据集中,大约6%的样本违约。

1

age

Age of borrower in years

借款人年龄(以年为单位)

integer

可知有更多的年轻人违约,而且总体分布似乎还不错

2

MonthlyIncome

Monthly income

月收入

real

存在缺失值,29731(19.82%)

数值分布偏斜,我们可以考虑用中位数进行插补。

我们还可以考虑用正态分布值及其均值和标准差进行插补。

3

NumberOfDependents

Number of dependents in family excluding themselves (spouse, children etc.)

家庭受扶养人数(配偶、子女等除外)

integer

存在缺失值,3924 (2.61%)

我们可以考虑用它的众数进行插补,众数为零。

4

DebtRatio

Monthly debt payments, alimony,living costs divided by monthy gross income

每月的债务支付,赡养费,生活费除以每月的总收入

percentage

2.5%的客户的负债大约是他们所拥有资产的3490倍或更多;

对于月收入在2.5%的人来说,只有185人的月收入值是0或1;

这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。

5

NumberOfOpenCredit

LinesAndLoans

Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)

公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡)

integer

6

NumberRealEstate

LoansOrLines

Number of mortgage and real estate loans including home equity lines of credit

按揭和房地产贷款的数量,包括房屋净值信贷额度

integer

7

RevolvingUtilization
OfUnsecuredLines

Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits

除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和

percentage

定义为所欠款项总额与总信用额度之比率;

分析:值的分布是右偏的,考虑删除离群值;

处理逻辑:预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。

因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。

8

NumberOfTime30-59DaysPastDueNotWorse

Number of times borrower has been 30-59 days past due but no worse in the last 2 years.

借款人逾期30-59天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(13~96)次的样本

9

NumberOfTime60-89DaysPastDueNotWorse

Number of times borrower has been 60-89 days past due but no worse in the last 2 years.

借款人逾期60-89天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(11~96)次的样本

10

NumberOfTimes
90DaysLate

Number of times borrower has been 90 days or more past due.

借款人逾期90天或以上的次数。

integer

有趣的是,不存在逾期(17~96)次的样本

详见EDA分析后总结

2、EDA分析后总结

        通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的

NumberOfTime30-59DaysPastDueNotWorse

NumberOfTime60-89DaysPastDueNotWorse

NumberOfTimes90DaysLate

0     126018

1      16033

2       4598

3       1754

4        747

5        342

6        140

7         54

8         25

9         12

10         4

11         1

12         2

13         1

96         5

98       264

0     142396

1       5731

2       1118

3        318

4        105

5         34

6         16

7          9

8          2

9          1

11         1

96         5

98       264

0     141662

1       5243

2       1555

3        667

4        291

5        131

6         80

7         38

8         21

9         19

10         8

11         5

12         2

13         4

14         2

15         2

17         1

96         5

98       264

3、数据集基本形状

1.  #   Column                                Non-Null Count   Dtype  
2. ---  ------                                --------------   -----  
3. 0   Unnamed: 0                            150000 non-null  int64
4. 1   SeriousDlqin2yrs                      150000 non-null  int64
5. 2   RevolvingUtilizationOfUnsecuredLines  150000 non-null  float64
6. 3   age                                   150000 non-null  int64
7. 4   NumberOfTime30-59DaysPastDueNotWorse  150000 non-null  int64
8. 5   DebtRatio                             150000 non-null  float64
9. 6   MonthlyIncome                         120269 non-null  float64
10. 7   NumberOfOpenCreditLinesAndLoans       150000 non-null  int64
11. 8   NumberOfTimes90DaysLate               150000 non-null  int64
12. 9   NumberRealEstateLoansOrLines          150000 non-null  int64
13. 10  NumberOfTime60-89DaysPastDueNotWorse  150000 non-null  int64
14. 11  NumberOfDependents                    146076 non-null  float64
15. dtypes: float64(4), int64(8)
16. memory usage: 13.7 MB

Give Me Some Credit数据集的下载

数据集下载Give Me Some Credit | Kaggle

Give Me Some Credit数据集的使用方法


相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
人工智能 计算机视觉
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 算法 大数据
Dataset之CASIA-WebFace:CASIA-WebFace 数据集的简介、安装、使用方法之详细攻略
Dataset之CASIA-WebFace:CASIA-WebFace 数据集的简介、安装、使用方法之详细攻略
Dataset之CASIA-WebFace:CASIA-WebFace 数据集的简介、安装、使用方法之详细攻略
|
机器学习/深度学习 算法 程序员
Dataset之GermanCreditData:GermanCreditData数据集的简介、下载、使用方法之详细攻略
Dataset之GermanCreditData:GermanCreditData数据集的简介、下载、使用方法之详细攻略
Dataset之GermanCreditData:GermanCreditData数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 算法 图形学
Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略
Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略
|
算法 数据库
Dataset之CamVid:CamVid数据集的简介、下载、使用方法之详细攻略
Dataset之CamVid:CamVid数据集的简介、下载、使用方法之详细攻略
Dataset之CamVid:CamVid数据集的简介、下载、使用方法之详细攻略
|
传感器 编解码 算法
Dataset之MapillaryVistas:MapillaryVistas数据集的简介、下载、使用方法之详细攻略
Dataset之MapillaryVistas:MapillaryVistas数据集的简介、下载、使用方法之详细攻略
Dataset之MapillaryVistas:MapillaryVistas数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 数据挖掘 TensorFlow
Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介、下载、使用方法之详细攻略
Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介、下载、使用方法之详细攻略
|
计算机视觉
Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略
Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略
Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略
Dataset之JFT:JFT/FastEval14k数据集的简介、下载、案例应用之详细攻略
Dataset之JFT:JFT/FastEval14k数据集的简介、下载、案例应用之详细攻略