零基础入门金融风控之贷款违约预测
Task1:赛题理解
1.赛题概况
赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
2.数据概况
3.评价指标
竞赛采用的是AUC作为评价指标,至于其他的评价指标,这里列举一下:
1.混淆矩阵
2.准确率
3.精确率
4.召回率
5.F1-SCore
6.P-R曲线
7.ROC曲线
8.AUC曲线
对于金融风控预测常见的评价指标是:KS
4、代码示例