每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

简介: 每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

第26题 中级题: 活跃时长的均值

1. 需求列表

昨日的活跃用户中,各个级别人才,当日最大活跃时长模块的活跃时长,占当日活跃总时长的比值的均值

思路分析

  1. 计算每个用户每天在各个模块的活跃时长总和。
  2. 找到每个用户每天活跃时长最大的模块。
  3. 计算每个用户每天活跃时长最大模块的活跃时长占当天活跃总时长的比值。
  4. 按照用户的职业水平分组,计算每组用户当天活跃时长最大模块的活跃时长占当天活跃总时长比值的均值。

答案获取

建议你先动脑思考,动手写一写再对照看下答案,如果实在不懂可以点击下方卡片,回复:大厂sql 即可。

参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。

加技术群讨论

点击下方卡片关注 联系我进群

或者直接私信我进群

附表

表1:maimai.dau

d uid module active_duration 列说明
2020-01-01 1 jobs 324 d: 活 跃 的 日 期 uid:用户的唯一编码module:用户活跃模块actre.duration:该模块下对应的活跃时长(单位:s)
2020-01-01 2 feeds 445
2020-01-01 3 im 345
2020-01-02 2 network 765
2020-01-02 3 jobs 342

表2:maimai.users

uid career_level city work_length 列说明
1 中级人才 北京 4 uid:用户的唯一编码career level:人才级别
2 高级人才 上海 7
3 初级人才 北京 1 city:用户所在城市work_length:用户工作年限
4 普通人才 平顶山 2
-- 建表
-- 表1 dau 记录了每日脉脉活跃用户的uid和不同模块的活跃时长
create  or  replace temporary view  dau(d,  uid,  module, active_duration) as
values ('2020-01-01', 1, 'jobs', 324),
('2020-01-01', 2, 'feeds', 445),
('2020-01-01', 3, 'im', 345),
('2020-01-02', 2, 'network', 765),
('2020-01-02', 3, 'jobs', 342);
-- 表2 users 脉脉所有用户得一些注册属性
create  or  replace temporary view  users(uid,  career_level, city, work_length) as
values (1, '中级人才', '北京', 4),
(2, '高级人才', '上海', 7),
(3, '初级人才', '北京', 1),
(4, '普通人才', '平顶山', 2); 

文末SQL小技巧

提高SQL功底的思路。

1、造数据。因为有数据支撑,会方便我们根据数据结果去不断调整SQL的写法。

造数据语法既可以create table再insert into,也可以用下面的create temporary view xx as values语句,更简单。

其中create temporary view xx as values语句,SparkSQL语法支持,hive不支持。

2、先将结果表画出来,包括结果字段名有哪些,数据量也画几条。这是分析他要什么。

从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。

3、要由简单过度到复杂,不要一下子就写一个很复杂的。

先写简单的select from table…,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。

4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;如果是SparkSQL,就设置合适的shuffle并行度,set spark.sql.shuffle.partitions=4;

目录
相关文章
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户
50 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day27】脉脉真题实战(三)连续两天活跃用户
每天一道大厂SQL题【Day27】脉脉真题实战(三)连续两天活跃用户
37 0
|
12天前
|
SQL 自然语言处理 数据库
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学
|
16天前
|
SQL 数据库
数据库SQL语言实战(二)
数据库SQL语言实战(二)
|
22天前
|
SQL 存储 关系型数据库
【MySQL实战笔记】02.一条SQL更新语句是如何执行的-2
【4月更文挑战第5天】两阶段提交是为确保`redo log`和`binlog`逻辑一致,避免数据不一致。若先写`redo log`, crash后数据可能丢失,导致恢复后状态错误;若先写`binlog`,crash则可能导致重复事务,影响数据库一致性。一天一备相较于一周一备,能缩短“最长恢复时间”,但需权衡额外的存储成本。
16 1
|
4月前
|
SQL 数据挖掘 数据库
SQL数据分析实战:从导入到高级查询的完整指南
SQL数据分析实战:从导入到高级查询的完整指南
62 0
|
5月前
|
SQL 大数据 Serverless
每天一道大厂SQL题【Day24】华泰证券真题实战(六)
每天一道大厂SQL题【Day24】华泰证券真题实战(六)
38 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day23】华泰证券真题实战(五)
每天一道大厂SQL题【Day23】华泰证券真题实战(五)
28 0
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day22】华泰证券真题实战(四)
每天一道大厂SQL题【Day22】华泰证券真题实战(四)
41 0
|
19天前
|
SQL 人工智能 算法
【SQL server】玩转SQL server数据库:第二章 关系数据库
【SQL server】玩转SQL server数据库:第二章 关系数据库
61 10