数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化

本文涉及的产品
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
云数据库 RDS SQL Server,基础系列 2核4GB
简介: 数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化

原文链接:https://tecdat.cn/?p=34085

分析师:Zuyuan Wang


追求信贷规模的扩张,往往会导致贷款逾期率的不断增加,如何在当今社会运用数据识别用户特征进行风险管控成为了银行放贷的重点依据点击文末“阅读原文”获取完整数据


解决方案


任务/目标

研究公司个人贷款的数据集查看文末了解数据免费获取方式,分析客户特征、贷款的风险特征,并对L公司如何将贷款违约率控制在较小范围内提出想法。


数据源准备


全球资本市场是一个巨大的资本池,其中最常见的便是个人消费贷款和中小企业贷款。L公司一度处于全球贷款行业老大的地位。L公司很好地将用户的贷款违约率维持在较小的范围内。

数据浏览:

数据清洗

a) 缺失值的删除

由于数据量巨大,且数据中部分行的数据值不全,故对数据不全的数据进行删除。

b) 格式的转换。

i. 日期转换:通过 SQL 语言进行文本格式的转换

ii. 统一同一职业、所处地域等的表述方式。

数据中,统一来自于不同公司、同一职业的人的不同表述方式(例如 KPMG accountant E&Y accountant 统一为 accountant );

相同地域(州)也存在着一部分用全称、一部分用缩写的情况,此种情况统一为州全称。


(以上过程亦可通过python实现)

概念模型的构建

image.png

通过SQL Server、Visual Studio的Integration Services进行ETL实现

i. 导入原始数据,并设计好纬度表和事实表(列名、主键、外键、约束)

ii.   设计空表

iii.  依次进行贷款表、借贷者表、位置表、时间表的ETL

通过 multidimensional analysis service 进行数据立方体的构建

i.    数据立方体设有贷款维度、借贷者维度、位置维度、时间维度

ii.   不同纬度下设不同的层次结构

在Visual Studio里计算时间智能、KPI,最后用tableau进行数据可视化,并解决管理问题


项目结果


贷款额随时间的变化、同比、环比

image.png

image.png

现象:

1.贷款额度基本维持在900万美元到1050万美元区间内,随时间呈周期性变化,周期为1季度。对于第一季度而言,一般最后一个月贷款额度较高,对于第二季度,5月份的贷款额度较高,对于第三季度而言,7,8月份的贷款额度较高,对于第四季度,12月份的贷款额度较高。

2.总体来看五年内,贷款额度的最低点都集中在第一季度

3.贷款的同比、环比变化幅度均较小,上下浮动不超过4%,环比的最高值出现在2015第二季度,同比最高值出现在2015第三季度

 

点击标题查阅往期内容


Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付


01

02

image.png

03

image.png

04

image.png

分析:


1.因各年、月贷款额度上下浮动总体不大,可以认为现有借款、贷款资质审查门槛合理,基本满足贷款供需平衡。

2.贷款额在第一季度较少的原因可能是由于年初人们没有较大的贷款需求,整体处于规划状态,而美国人在年终和第四季度(尤其是圣诞节期间)开销比较大,因此贷款需求较高,应该在那个时间段扩大营销。

收入、职业、自有房对贷款的影响

image.png

现象:可以看出贷款额度较高的人群特点是

1.  对于低收入人群:按揭房的工业工程师,无房的软件工程师、自有房的注册护士、租房的卡车司机

2.  对于中等收入人群:按揭房的客服、没有房的卡车司机、自有房的工业工程师、租房的销售经理

3.  对于中高等收入人群:按揭房的卡车司机、无房的社会工作者、自有房的内科医生、租房的保险销售人员

4.  对于高等收入人群:按揭房的客户服务人员、无房的工业工程师、自有房的注册护士、租房的客户服务人员

分析:根据以上特征企业可以制订个性化的营销和产品方案,例如对于自有房的客户可能经济压力来源于高额的房地产税,因此在进行产品设计时可以强调贷款周期长、利率小的特点,再比如对于无房的社会服务者,因为其工作的特殊性工资不需要纳税且无房也没有房地产税的负担,其主要的经济压力可能来源于生活普通开销,因此产品设计可以考虑短期、流动性强的贷款

还款 KPI

image.png

KPI划分依据:

l  还款额度为100%为状态一:达标

l  还款额度为95-100%的为状态二:基本达标

l  还款额为90-95%的为状态三:不达标

l  90%以下的为状态四:严重不达标

 

现象:

总体来看:

1.  各职业、各收入人群的还款KPI基本达标。其中只有年收入低于二十万美元的软件工程师、年收入二十万到四十万的社会工作者出现了还款KPI不达标的情况。

2.  贷款买房的贷款人还款KPI最佳。无房、拥有房产的贷款人的还款KPI优秀率最低。

3.  软件工程师还款KPI为优秀的比例最大,但同时也出现收入较低时KPI不达标的风险情况。

分时间段来看:

1.  2014年有6种特征人群严重不达标且集中在中低收入人群,销售经理除外

2.  2015年同样有6种特征人群严重不达标且集中在中高收入人群

3.  2016年软件工程师的达标情况出现两极分化,部分人群达标,部分人群严重不达标

4.  2017年中高等收入的注册护士达标情况比较差

5.  2018年工业工程师和会计的达标情况比较差

分析:

  1. 年收入二十万到四十万的社会工作者贷款条件应该更为严格。
  2. 收入高于二十万的软件工程师贷款条件可以适度放松;收入在二十万以下的软件工程师贷款条件应更加严格。
  3. 每一年职业对KPI的影响不同,企业应该具体分析每一年中的行业走势,识别出经济波动中的行业衰退

地域分布对贷款的影响

image.png

现象:

1.乔治亚州、肯塔基州为贷款额度最低的两个州。

2.怀俄明州、密歇根州为贷款额度最高的两个州。

3.GDP最高的加利福利亚州贷款额度处于低水平。GDP倒数第一、二的佛蒙特州、怀俄明州贷款额度处于高水平。

4.贷款总额最高的地区是东南和中西部地区,最少的是东北和西南地区。

分析:

1.贷款额度与GDP呈负相关关系,越富裕的地区贷款额度越低,而贫穷的州仍然处于需要贷款解决问题的生活水平。

2.公司应当关注佛蒙特州、怀俄明州此类GDP倒数、贷款额度最高的州的还款KPI情况,若KPI不达标,则加强对此类大州的贷款资质审查力度。同理,可以适度放松对GDP发达、借款额度低的大州的贷款资质审查力度。

3.公司应该根据各个地区的贷款额状况设置代理点,在贷款额高的地区设置更多的代理点而在贷款额低的地区设置较少的代理点,同时可以在贷款额少的地区加大营销力度。

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
相关文章
|
9天前
Visual Studio 快速分析 .NET Dump 文件
【11月更文挑战第10天】.NET Dump 文件是在 .NET 应用程序崩溃或出现问题时生成的,记录了应用程序的状态,包括内存对象、线程栈和模块信息。通过分析这些文件,开发人员可以定位和解决内存泄漏、死锁等问题。在 Visual Studio 中,可以通过调试工具、内存分析工具和符号加载等功能来详细分析 Dump 文件。此外,还可以使用第三方工具如 WinDbg 进行更深入的分析。
|
18天前
|
SQL 存储 缓存
SQL Server 数据太多如何优化
11种优化方案供你参考,优化 SQL Server 数据库性能得从多个方面着手,包括硬件配置、数据库结构、查询优化、索引管理、分区分表、并行处理等。通过合理的索引、查询优化、数据分区等技术,可以在数据量增大时保持较好的性能。同时,定期进行数据库维护和清理,保证数据库高效运行。
|
1月前
|
SQL 移动开发 Oracle
SQL语句实现查询连续六天数据的方法与技巧
在数据库查询中,有时需要筛选出符合特定时间连续性条件的数据记录
|
1月前
|
SQL 存储 关系型数据库
添加数据到数据库的SQL语句详解与实践技巧
在数据库管理中,添加数据是一个基本操作,它涉及到向表中插入新的记录
|
1月前
|
SQL 存储 数据库
SQL在构建系统中的应用:关键要素与编写技巧
在构建基于数据库的系统时,SQL(Structured Query Language)扮演着至关重要的角色
|
1月前
|
SQL 数据挖掘 数据库
SQL查询每秒的数据:技巧、方法与性能优化
id="">SQL查询功能详解 SQL(Structured Query Language,结构化查询语言)是一种专门用于与数据库进行沟通和操作的语言
|
2月前
|
SQL 数据库
数据库数据恢复—SQL Server数据库报错“错误823”的数据恢复案例
SQL Server附加数据库出现错误823,附加数据库失败。数据库没有备份,无法通过备份恢复数据库。 SQL Server数据库出现823错误的可能原因有:数据库物理页面损坏、数据库物理页面校验值损坏导致无法识别该页面、断电或者文件系统问题导致页面丢失。
103 12
数据库数据恢复—SQL Server数据库报错“错误823”的数据恢复案例
|
11天前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第8天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统准备、配置安装源、安装 SQL Server 软件包、运行安装程序、初始化数据库以及配置远程连接。通过这些步骤,您可以顺利地在 CentOS 系统上部署和使用 SQL Server 2019。
|
12天前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第7天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统要求检查与准备、配置安装源、安装 SQL Server 2019、配置 SQL Server 以及数据库初始化(可选)。通过这些步骤,你可以成功安装并初步配置 SQL Server 2019,进行简单的数据库操作。
|
26天前
|
存储 数据挖掘 数据库
数据库数据恢复—SQLserver数据库ndf文件大小变为0KB的数据恢复案例
一个运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库每10天生成一个NDF文件,每个NDF几百GB大小。数据库包含两个LDF文件。 存储损坏,数据库不可用。管理员试图恢复数据库,发现有数个ndf文件大小变为0KB。 虽然NDF文件大小变为0KB,但是NDF文件在磁盘上还可能存在。可以尝试通过扫描&拼接数据库碎片来恢复NDF文件,然后修复数据库。
下一篇
无影云桌面