每天一道大厂SQL题【Day15】微众银行真题实战(五)-阿里云开发者社区

每天一道大厂SQL题【Day15】微众银行真题实战(五)

2023-12-26 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 每天一道大厂SQL题【Day15】微众银行真题实战(五)

第15题：逾期率统计

需求列表

基于附录2《借据表》统计下述指标，请提供Vintage统计SQL（mobX指的是发放后第X月末的不良余额/发放月金额）

发放月份	发放金额	MOB1	MOB2	MOB3	MOB4	MOB5	MOB6	MOB7	MOB8	MOB9	MOB10	MOB11	MOB12
2019-10
2019-11
2019-12
2020-01
2020-02
2020-03
2020-04
2020-05
2020-06
2020-07
2020-08
2020-09
2020-10

数据准备

链接：https://pan.baidu.com/s/1Wiv-LVYziVxm8f0Lbt38Gw?pwd=s4qc

提取码：s4qc

debt.txt文件

set spark.sql.shuffle.partitions=4;
create database webank_db;
use webank_db;
create or replace temporary view check_view (ds comment '日期分区',
sno comment '流水号', uid comment '用户id',
is_risk_apply comment '是否核额申请',
is_pass_rule comment '是否通过规则',
is_obtain_qutoa comment '是否授信成功', quota comment '授信金额',
update_time comment '更新时间')
as
values ('20201101', 's000', 'u000', 1, 1, 1, 700, '2020-11-01 08:12:12'),
('20201102',  's088', 'u088', 1,  1,  1,  888, '2020-11-02 08:12:12'),
('20201230',  's091', 'u091', 1,  1,  1,  789, '2020-12-30 08:12:12'),
('20201230',  's092', 'u092', 1,  0,  0,  0, '2020-12-30 08:12:12'),
('20201230',  's093', 'u093', 1,  1,  1,  700, '2020-12-30 08:12:12'),
('20201231',  's094', 'u094', 1,  1,  1,  789, '2020-12-31 08:12:12'),
('20201231',  's095', 'u095', 1,  1,  1,  600, '2020-12-31 08:12:12'),
('20201231',  's096', 'u096', 1,  1,  0,  0, '2020-12-31 08:12:12')
;
--创建核额流水表 
drop table if exists check_t;
create table check_t (
sno string comment '流水号', 
    uid string,
is_risk_apply bigint, 
    is_pass_rule bigint, 
    is_obtain_qutoa bigint, 
    quota decimal(30,6), update_time string
) partitioned by (ds string comment '日期分区');
--动态分区需要设置 
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict; 
insert overwrite table check_t partition (ds) select sno,
uid, is_risk_apply, is_pass_rule, is_obtain_qutoa, quota, 
update_time,
ds
from check_view;

-- 创 建 借 据 表
create table debt(
duebill_id  string comment '借据号',
uid string, prod_type   string, 
putout_date string, 
putout_amt    decimal(30, 6),
balance decimal(30, 6), 
is_buliang    int, 
overduedays int
)partitioned by (ds string comment '日期分区');
--资料提供了一个34899条借据数据的文件 
--下面补充如何将文件的数据导入到分区表中。需要一个中间普通表过度。
drop table if exists webank_db.debt_temp;
create table webank_db.debt_temp(
duebill_id    string comment '借据号', uid string,
prod_type string,
putout_date string, putout_amt  decimal(30, 6),
balance decimal(30,6),
is_buliang  int, overduedays int,
ds string comment '日期分区'
) row format delimited fields terminated by 't';
load data local inpath '/root/debt.txt' overwrite into table webank_db.debt_temp;
--动态分区需要设置 
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table webank_db.debt partition (ds)
select * from webank_db.debt_temp;
--技巧：如果查询debt表，由于分区数太多，导致查询很慢。 
-- 开发阶段，我们可以事先将表缓存起来，并且降低分区数比如为6，那么查缓存表大大提升了开发效率。 
-- 上线阶段，再用实际表替换缓存表。 
--首次缓存会耗时慢 
cache table cache_debt as select /+ coalesce(6) /  from
debt;
--第二次使用缓存会很快 
select count(*) from cache_debt;
select ds,count(1) from cache_debt group by ds;

思路分析

随机观察2个借据的情况

*select* * *from* cache_debt *where* duebill_id='u001-1' *order by* ds;
*select* * *from* cache_debt *where* duebill_id='u005-2' *order by* ds;

分3个大步骤：

步骤1：形成临时表1_每月的总发放金额

发放月份	发放金额
2019-10	aa
2019-11	bb
2019-12	cc
2020-01	dd
2020-02	ee
2020-03	ff
2020-04	gg
2020-05	hh

步骤2：形成临时表2_发放后第几个月末时的不良余额

	发放后第几个月末时的不良余额(元)
发放月份	1月后	2月后	3月后	4月后	5月后	6月后	7月后	8月后
2019-10	a1	a2	a3	a4	a5	a6	a7	a8
2019-11	b1	b2	b3	b4	b5	b6	b7	b8
2019-12	c1	c2	c3	c4	c5	c6	c7	c8
2020-01	d1	d2	d3	d4	d5	d6	d7	d8
2020-02	e1	e2	e3	e4	e5	e6	e7	e8
2020-03	f1	f2	f3	f4	f5	f6	f7	f8
2020-04	g1	g2	g3	g4	g5	g6	g7	g8
2020-05	h1	h2	h3	h4	h5	h6	h7	h8

步骤3：用上面的临时表1关联临时表2，用临时表2的每个值除以临时表的总金额。

		发放后第几个月末时的不良余额占发放金额的比例
发放月份	发放金额	1月后	2月后	3月后	4月后	5月后	6月后	7月后	8月后
2019-10	aa	a1/aa	a2/aa	a3/aa	a4/aa	a5/aa	a6/aa	a7/aa	a8/aa
2019-11	bb	b1/bb	b2/bb	b3/bb	b4/bb	b5/bb	b6/bb	b7/bb	b8/bb
2019-12	cc	c1/cc	c2/cc	c3/cc	c4/cc	c5/cc	c6/cc	c7/cc	c8/cc
2020-01	dd	d1/dd	d2/dd	d3/dd	d4/dd	d5/dd	d6/dd	d7/dd	d8/dd
2020-02	ee	e1/ee	e2/ee	e3/ee	e4/ee	e5/ee	e6/ee	e7/ee	e8/ee
2020-03	ff	f1/ff	f2/ff	f3/ff	f4/ff	f5/ff	f6/ff	f7/ff	f8/ff
2020-04	gg	g1/gg	g2/gg	g3/gg	g4/gg	g5/gg	g6/gg	g7/gg	g8/gg
2020-05	hh	h1/hh	h2/hh	h3/hh	h4/hh	h5/hh	h6/hh	h7/hh	h8/hh

答案获取

建议你先动脑思考，动手写一写再对照看下答案，如果实在不懂可以点击下方卡片，回复:大厂sql 即可。

参考答案适用HQL，SparkSQL，FlinkSQL，即大数据组件，其他SQL需自行修改。

加技术群讨论

点击下方卡片关注联系我进群

或者直接私信我进群

微众银行源数据表附录：

核额流水表

字段名	字段意义	字段类型
ds	日期分区，样例格式为20200101，每个分区有全量流水	string
sno	每个ds内主键，流水号	string
uid	户id	string
is_risk_apply	是否核额申请（核额漏斗第一步）取值0和1	bigint
is_pass_rule	是否通过规则（核额漏斗第二步）取值0和1	bigint
is_obtain_qutoa	是否授信成功（核额漏斗第三步）取值0和1	bigint
quota	授信金额	decimal(30,6)
update_time	更新时间样例格式为2020-11-14 08:12:12	string

借据表

字段名	字段意义	字段类型
ds	日期分区，样例格式为20200101每个分区有全量借据	string
duebilid	借据号（每个日期分区内的主键）	string
uid	用户id	string

prod_type	产品名称仅3个枚举值XX贷YY贷ZZ贷	string
putout_date	发放日期样例格式为2020-10-10 00:10:30	bigint
putout_amt	发放金额	decimal(30,6)
balance	借据余额	decimal(30,6)
is_buliang	状态-是否不良取值0和1	bigint
overduedays	逾期天数	bigint

模型输出表

字段名	字段意义	字段类型
ds	日期分区，样例格式为20200101增量表部分流水记录可能有更新	string
sno	流水号，主键	string
create time	创建日期样例格式为2020-10-10 00:10:30与sno唯一绑定，不会变更	string
uid	用户id	string
content	son格式key值名称为V01～V06，value值取值为0和1	string
create_time	更新日期样例格式为2020-10-1000:10:30	string

文末SQL小技巧

提高SQL功底的思路。

1、造数据。因为有数据支撑，会方便我们根据数据结果去不断调整SQL的写法。

造数据语法既可以create table再insert into，也可以用下面的create temporary view xx as values语句，更简单。

其中create temporary view xx as values语句，SparkSQL语法支持，hive不支持。

2、先将结果表画出来，包括结果字段名有哪些，数据量也画几条。这是分析他要什么。

从源表到结果表，一路可能要走多个步骤，其实就是可能需要多个子查询，过程多就用with as来重构提高可读性。

3、要由简单过度到复杂，不要一下子就写一个很复杂的。

先写简单的select from table…,每个中间步骤都执行打印结果，看是否符合预期，根据中间结果，进一步调整修饰SQL语句，再执行，直到接近结果表。

4、数据量要小，工具要快，如果用hive，就设置set hive.exec.mode.local.auto=true;如果是SparkSQL，就设置合适的shuffle并行度，set spark.sql.shuffle.partitions=4;

每天一道大厂SQL题【Day15】微众银行真题实战(五)

第15题：逾期率统计

需求列表

数据准备

思路分析

答案获取

加技术群讨论

微众银行源数据表附录：

文末SQL小技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

每天一道大厂SQL题【Day15】微众银行真题实战(五)

第15题：逾期率统计

需求列表

数据准备

思路分析

答案获取

加技术群讨论

微众银行源数据表附录：

文末SQL小技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景