【数据开发系列】 - 数据开发常用SQL汇总

简介: 数据开发或数据分析同学常用的很多SQL并不一定会记全,但是必须得记住。熟记心里提升工作效率!

1.计算昨天的日期

ds = TO_CHAR(DATEADD(TO_DATE('${bizdate}','yyyymmdd'), - 1,'dd'),'yyyymmdd')


2.计算数据的涨跌趋势

CASE WHEN col_1 < col_2 AND ABS(col_1 - col_2) >= 0.01 THEN 'down'         WHEN col_1 > col_2 AND ABS(col_1 - col_2) >= 0.01 THEN 'up'        WHEN ABS(col_1 - col_2) < 0.01 THEN 'eq'      END AS updown



3.通过日期计算年月/年同理操作

substr(ds, 1, 6) = '${bizmonth}'


4.字符串拼接ID/切割字符串和ID

concat(1, '^', col_1) as col_1,SPLIT_PART(col_1, '^', 1) as col_2,



5.数据多列转行

trans_cols( 2,            col_1,            col_2,            col_3,            col_4,            col_5,            col_6,            col_7,            col_8,            col_9,            col_10        ) AS (id,               col_1,              col_2,              col_11)



6.为空值添加默认值

COALESCE(col_1, FALSE)COALESCE(col_2, 0)



7.条件判断/模式匹配 CASE WHEN

CASE   WHEN sum(col_1) < sum(col_2)   AND ABS(sum(col_1) - sum(col_2)) >= 0.01 THEN 'down' WHEN sum(col_1) > sum(col_2)   AND ABS(sum(col_1) - sum(col_2)) >= 0.01 THEN 'up' WHEN ABS(sum(col_1) - sum(col_2)) < 0.01 THEN 'eq' END AS updown



8.条件判断 IF ELSE

IF(col_1 = 0, -1, col_1)



9.查询表最大分区

ds = MAX_PT('db.table')



10.返回某字段并指定默认值

SELECT 0 AS col_1,'test' AS col_2FROM    db.table



11.字符串格式化为日期

TO_DATE('${bizdate}', 'yyyymmdd')


12.日期转化为字符串

TO_CHAR(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'mm'), 'yyyymmdd')



13.计算之前/之后N天/月等日期

DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'mm')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), 1, 'mm')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), 1, 'dd')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'dd')



14.字符串补位

LPAD(col1_1, 2, '0')


15.过滤等于0或空的数据 HAVING, 这里可以使用count等来做数量的控制

HAVING COALESCE(col_1, 0)<>0


16.计算一年的时间范围

DATE_FORMAT(DATE_SUB(DATE_FORMAT(#{end_date}, '%Y%m%d'), 366), '%Y%m%d')



17.SQL返回结果添加自增ID

SELECT  ROW_NUMBER() OVER () AS id,

       col_1,

       col_2

FROM   db.tb

注:当row_number函数与order by同级别使用时,row_number产生的序号会同未排序前的顺序结果保持一致,也就是乱序的。因此建议将row_number放在order by外层使用;



18.SQL 中字段类型转换(这里以String转换为BigInt为例)

CAST(stat_date AS BIGINT) AS stat_date

CONVERT(stat_date, BIGINT) AS stat_date


19.SQL中统计数值范围内个数

COUNT(CASE WHEN col_1 BETWEEN 0 AND 10 THEN 1 END) AS col_2


20.笛卡尔积,两个字段汇总到一张表(有无关联字段无所谓)

并且要标记出哪个表数据量少,放在MAPJOIN的注释中;

SELECT

           /*+ MAPJOIN (t_2) */t_1.col_1 AS col_1,

           t_2.col_2 AS col_2

       FROM

           t_xxxx AS t_1,

           t_yyyy AS t_2


21.Join长尾优化

长尾SQL在JOIN阶段会将Join Key相同的数据分发到一个Instance上处理。如果某个Key上的数据量较多,会导致该Instance执行时间比其它Instance执行时间长,其表现为:追星日志中该Join Task的大部分Instance多已经执行完成,但少数几个Instance一直处于执行中;

常见解决方案

MapJoin

可以采用MapJoin避免数据倾斜,在SELECT后面加上如下语句:

/*+ mapjoin(t_1) */

其中t_1代表其中的相对来说较小的表或者子查询;

处理空值;

统一去掉空值,或者转化成为随机数(数量级别上可以很大或者很小,不要影响当前字段的其它数据);

热点Key问题

找到热点Key,切分成多个小表/子查询等,再来处理。

22.修改分区生命周期

alter table yyyy.xxxx set LIFECYCLE  731


23.统计重复条数

  SELECT

       id,

       COUNT(*)

   FROM

       db.t_1

   WHERE

       ds=MAX_PT('db.t_1')

   GROUP BY

       id

   HAVING COUNT(*) > 1

)


24.增加字段

alter table db.tb ADD COLUMNS(col1 BIGINT COMMENT '1是,0否')



25.只匹配包含中文的字符串

COLUMN RLIKE '[^\x00-\xff]+'


26.工号前面补0(避免匹配中有些带有前置零的情况)

IF (LENGTH(work_id) < 6 AND work_id NOT RLIKE '^[[:alpha:]]', CONCAT(REPEAT('0', 6 - LENGTH(work_id)), work_id), work_id)


27.打平连接(可选择分隔符)

wm_concat('、', column)


28.列转行(多列转为三、二列,形成kv结构的表)

WITH t_bid_1 AS (

   SELECT

       col_1,

       col_2,

       ...

       col_n

   FROM

       db.table

), t_bid_2 AS (

   SELECT

       id,

       TRIM(SPLIT_PART(field, '^', 1)) AS KEY,

       TRIM(SPLIT_PART(field, '^', 2)) AS VALUE

   FROM (

       SELECT

           id,

           CONCAT("col_1", "^", col_1) AS col_1,

           CONCAT("col_2", "^", col_2) AS col_2,

           ...

           CONCAT("col_n", "^", col_n) AS col_n

       FROM

           t_bid_1

   )

   LATERAL VIEW EXPLODE(ARRAY(id,

                              col_1,

                              col_2,

                              ...

                              col_n

                           )

   ) tb_view AS field

)


29.去掉字符串中括号

SELECT REGEXP_REPLACE('xxxx(yy)zzz', '([(.*?)])', '' )

xxxxyyzzz


30.获取上个月/本月最后一天

2021-07-31 -> LAST_DAY(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), - 1, 'mm'))

20210731 -> REPLACE(LAST_DAY(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), - 1, 'mm')), "-", "")

语法:

datetime lastday(datetime <date>)

string last_day(string <date>)



相关文章
|
7天前
|
SQL 存储 Oracle
Oracle的PL/SQL定义变量和常量:数据的稳定与灵动
【4月更文挑战第19天】在Oracle PL/SQL中,变量和常量扮演着数据存储的关键角色。变量是可变的“魔术盒”,用于存储程序运行时的动态数据,通过`DECLARE`定义,可在循环和条件判断中体现其灵活性。常量则是不可变的“固定牌”,一旦设定值便保持不变,用`CONSTANT`声明,提供程序稳定性和易维护性。通过 `%TYPE`、`NOT NULL`等特性,可以更高效地管理和控制变量与常量,提升代码质量。善用两者,能优化PL/SQL程序的结构和性能。
|
27天前
|
SQL 存储 关系型数据库
一文搞懂SQL优化——如何高效添加数据
**SQL优化关键点:** 1. **批量插入**提高效率,一次性建议不超过500条。 2. **手动事务**减少开销,多条插入语句用一个事务。 3. **主键顺序插入**避免页分裂,提升性能。 4. **使用`LOAD DATA INFILE`**大批量导入快速。 5. **避免主键乱序**,减少不必要的磁盘操作。 6. **选择合适主键类型**,避免UUID或长主键导致的性能问题。 7. **避免主键修改**,保持索引稳定。 这些技巧能优化数据库操作,提升系统性能。
226 4
一文搞懂SQL优化——如何高效添加数据
|
2月前
|
SQL 关系型数据库 MySQL
【MySQL进阶之路丨第十四篇】一文带你精通MySQL重复数据及SQL注入
【MySQL进阶之路丨第十四篇】一文带你精通MySQL重复数据及SQL注入
48 0
|
1月前
|
SQL 数据可视化 数据处理
使用SQL和Python处理Excel文件数据
使用SQL和Python处理Excel文件数据
54 0
|
7天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL游标属性:数据的“导航仪”与“仪表盘”
【4月更文挑战第19天】Oracle PL/SQL游标属性如同车辆的导航仪和仪表盘,提供丰富信息和控制。 `%FOUND`和`%NOTFOUND`指示数据读取状态,`%ROWCOUNT`记录处理行数,`%ISOPEN`显示游标状态。还有`%BULK_ROWCOUNT`和`%BULK_EXCEPTIONS`增强处理灵活性。通过实例展示了如何在数据处理中利用这些属性监控和控制流程,提高效率和准确性。掌握游标属性是提升数据处理能力的关键。
|
7天前
|
SQL Oracle 安全
Oracle的PL/SQL循环语句:数据的“旋转木马”与“无限之旅”
【4月更文挑战第19天】Oracle PL/SQL中的循环语句(LOOP、EXIT WHEN、FOR、WHILE)是处理数据的关键工具,用于批量操作、报表生成和复杂业务逻辑。LOOP提供无限循环,可通过EXIT WHEN设定退出条件;FOR循环适用于固定次数迭代,WHILE循环基于条件判断执行。有效使用循环能提高效率,但需注意避免无限循环和优化大数据处理性能。掌握循环语句,将使数据处理更加高效和便捷。
|
7天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL条件控制:数据的“红绿灯”与“分岔路”
【4月更文挑战第19天】在Oracle PL/SQL中,IF语句与CASE语句扮演着数据流程控制的关键角色。IF语句如红绿灯,依据条件决定程序执行路径;ELSE和ELSIF提供多分支逻辑。CASE语句则是分岔路,按表达式值选择执行路径。这些条件控制语句在数据验证、错误处理和业务逻辑中不可或缺,通过巧妙运用能实现高效程序逻辑,保障数据正确流转,支持企业业务发展。理解并熟练掌握这些语句的使用是成为合格数据管理员的重要一环。
|
7天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL表达式:数据的魔法公式
【4月更文挑战第19天】探索Oracle PL/SQL表达式,体验数据的魔法公式。表达式结合常量、变量、运算符和函数,用于数据运算与转换。算术运算符处理数值计算,比较运算符执行数据比较,内置函数如TO_CHAR、ROUND和SUBSTR提供多样化操作。条件表达式如CASE和NULLIF实现灵活逻辑判断。广泛应用于SQL查询和PL/SQL程序,助你驾驭数据,揭示其背后的规律与秘密,成为数据魔法师。
|
30天前
|
SQL 关系型数据库 MySQL
SQL INSERT INTO order_record SELECT * FROM 从一张表查出数据插入到另一张表
SQL INSERT INTO order_record SELECT * FROM 从一张表查出数据插入到另一张表
14 0
|
1月前
|
SQL 安全 数据库
第三章用sql语句操作数据
第三章用sql语句操作数据
10 0