每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户

简介: 每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户

第25题:

1. 需求列表

需求1:每日活跃用户

用户每日登陆脉脉会访问app不同的模块,

现有两个表 表1记录了每日脉脉活跃用户的uid和不同模块的活跃时长表2记录了脉脉所有注册用户的一些属性

1. 初级题: 每日活跃用户

  1. 九月中,每日活跃的用户数
  2. 九月中,对于每日活跃用户,其当日活跃时长最大的模块
  3. 十一期间的活跃用户中,jobs模块活跃超过100s的用户

思路分析

(1) 创建表

– 表1 dau 记录了每日脉脉活跃用户的uid和不同模块的活跃时长

create or replace temporary view dau(d, uid, module, active_duration) as
values (‘2020-01-01’, 1, ‘jobs’, 324),
(‘2020-01-01’, 2, ‘feeds’, 445),
(‘2020-01-01’, 3, ‘im’, 345),
(‘2020-01-02’, 2, ‘network’, 765),
(‘2020-01-02’, 3, ‘jobs’, 342);

– 表2 users 脉脉所有用户得一些注册属性

create or replace temporary view users(uid, career_level, city, work_length) as

values (1, ‘中级人才’, ‘北京’, 4),

(2, ‘高级人才’, ‘上海’, 7),

(3, ‘初级人才’, ‘北京’, 1),

(4, ‘普通人才’, ‘平顶山’, 2);

(2) 思路

  1. 九月中,每日活跃的用户数

我们可以使用SQL语句来查询每日活跃的用户数。首先,我们需要筛选出九月份的数据,然后按日期分组,最后计算每组中不同用户的数量。

  1. 九月中,对于每日活跃用户,其当日活跃时长最大的模块

我们可以使用SQL语句来查询每日活跃用户当日活跃时长最大的模块。首先,我们需要筛选出九月份的数据,然后按日期和用户分组,最后计算每组中活跃时长最大的模块。

  1. 十一期间的活跃用户中,jobs模块活跃超过100s的用户

我们可以使用SQL语句来查询十一期间jobs模块活跃超过100s的用户。首先,我们需要筛选出十一期间jobs模块的数据,然后按用户分组,最后计算每组中活跃时长超过100s的用户。

答案获取

建议你先动脑思考,动手写一写再对照看下答案,如果实在不懂可以点击下方卡片,回复:大厂sql 即可。

参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。

加技术群讨论

点击下方卡片关注 联系我进群

或者直接私信我进群

附表

表1:maimai.dau

d uid module active_duration 列说明
2020-01-01 1 jobs 324 d: 活 跃 的 日 期 uid:用户的唯一编码module:用户活跃模块actre.duration:该模块下对应的活跃时长(单位:s)
2020-01-01 2 feeds 445
2020-01-01 3 im 345
2020-01-02 2 network 765
2020-01-02 3 jobs 342

表2:maimai.users

uid career_level city work_length 列说明
1 中级人才 北京 4 uid:用户的唯一编码career level:人才级别
2 高级人才 上海 7
3 初级人才 北京 1 city:用户所在城市work_length:用户工作年限
4 普通人才 平顶山 2

文末SQL小技巧

提高SQL功底的思路。

1、造数据。因为有数据支撑,会方便我们根据数据结果去不断调整SQL的写法。

造数据语法既可以create table再insert into,也可以用下面的create temporary view xx as values语句,更简单。

其中create temporary view xx as values语句,SparkSQL语法支持,hive不支持。

2、先将结果表画出来,包括结果字段名有哪些,数据量也画几条。这是分析他要什么。

从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。

3、要由简单过度到复杂,不要一下子就写一个很复杂的。

先写简单的select from table…,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。

4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;如果是SparkSQL,就设置合适的shuffle并行度,set spark.sql.shuffle.partitions=4;

目录
相关文章
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day27】脉脉真题实战(三)连续两天活跃用户
每天一道大厂SQL题【Day27】脉脉真题实战(三)连续两天活跃用户
37 0
|
12天前
|
SQL 自然语言处理 数据库
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
|
16天前
|
SQL 数据库
数据库SQL语言实战(二)
数据库SQL语言实战(二)
|
22天前
|
SQL 存储 关系型数据库
【MySQL实战笔记】02.一条SQL更新语句是如何执行的-2
【4月更文挑战第5天】两阶段提交是为确保`redo log`和`binlog`逻辑一致,避免数据不一致。若先写`redo log`, crash后数据可能丢失,导致恢复后状态错误;若先写`binlog`,crash则可能导致重复事务,影响数据库一致性。一天一备相较于一周一备,能缩短“最长恢复时间”,但需权衡额外的存储成本。
16 1
|
4月前
|
SQL 数据挖掘 数据库
SQL数据分析实战:从导入到高级查询的完整指南
SQL数据分析实战:从导入到高级查询的完整指南
62 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值
每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值
24 0
|
5月前
|
SQL 大数据 Serverless
每天一道大厂SQL题【Day24】华泰证券真题实战(六)
每天一道大厂SQL题【Day24】华泰证券真题实战(六)
38 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day23】华泰证券真题实战(五)
每天一道大厂SQL题【Day23】华泰证券真题实战(五)
28 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day22】华泰证券真题实战(四)
每天一道大厂SQL题【Day22】华泰证券真题实战(四)
41 0
|
19天前
|
SQL 人工智能 算法
【SQL server】玩转SQL server数据库:第二章 关系数据库
【SQL server】玩转SQL server数据库:第二章 关系数据库
61 10