【数据开发系列】 - 数据开发常用SQL汇总

简介: 数据开发或数据分析同学常用的很多SQL并不一定会记全,但是必须得记住。熟记心里提升工作效率!

1.计算昨天的日期

ds = TO_CHAR(DATEADD(TO_DATE('${bizdate}','yyyymmdd'), - 1,'dd'),'yyyymmdd')


2.计算数据的涨跌趋势

CASE WHEN col_1 < col_2 AND ABS(col_1 - col_2) >= 0.01 THEN 'down'         WHEN col_1 > col_2 AND ABS(col_1 - col_2) >= 0.01 THEN 'up'        WHEN ABS(col_1 - col_2) < 0.01 THEN 'eq'      END AS updown



3.通过日期计算年月/年同理操作

substr(ds, 1, 6) = '${bizmonth}'


4.字符串拼接ID/切割字符串和ID

concat(1, '^', col_1) as col_1,SPLIT_PART(col_1, '^', 1) as col_2,



5.数据多列转行

trans_cols( 2,            col_1,            col_2,            col_3,            col_4,            col_5,            col_6,            col_7,            col_8,            col_9,            col_10        ) AS (id,               col_1,              col_2,              col_11)



6.为空值添加默认值

COALESCE(col_1, FALSE)COALESCE(col_2, 0)



7.条件判断/模式匹配 CASE WHEN

CASE   WHEN sum(col_1) < sum(col_2)   AND ABS(sum(col_1) - sum(col_2)) >= 0.01 THEN 'down' WHEN sum(col_1) > sum(col_2)   AND ABS(sum(col_1) - sum(col_2)) >= 0.01 THEN 'up' WHEN ABS(sum(col_1) - sum(col_2)) < 0.01 THEN 'eq' END AS updown



8.条件判断 IF ELSE

IF(col_1 = 0, -1, col_1)



9.查询表最大分区

ds = MAX_PT('db.table')



10.返回某字段并指定默认值

SELECT 0 AS col_1,'test' AS col_2FROM    db.table



11.字符串格式化为日期

TO_DATE('${bizdate}', 'yyyymmdd')


12.日期转化为字符串

TO_CHAR(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'mm'), 'yyyymmdd')



13.计算之前/之后N天/月等日期

DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'mm')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), 1, 'mm')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), 1, 'dd')DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), -1, 'dd')



14.字符串补位

LPAD(col1_1, 2, '0')


15.过滤等于0或空的数据 HAVING, 这里可以使用count等来做数量的控制

HAVING COALESCE(col_1, 0)<>0


16.计算一年的时间范围

DATE_FORMAT(DATE_SUB(DATE_FORMAT(#{end_date}, '%Y%m%d'), 366), '%Y%m%d')



17.SQL返回结果添加自增ID

SELECT  ROW_NUMBER() OVER () AS id,

       col_1,

       col_2

FROM   db.tb

注:当row_number函数与order by同级别使用时,row_number产生的序号会同未排序前的顺序结果保持一致,也就是乱序的。因此建议将row_number放在order by外层使用;



18.SQL 中字段类型转换(这里以String转换为BigInt为例)

CAST(stat_date AS BIGINT) AS stat_date

CONVERT(stat_date, BIGINT) AS stat_date


19.SQL中统计数值范围内个数

COUNT(CASE WHEN col_1 BETWEEN 0 AND 10 THEN 1 END) AS col_2


20.笛卡尔积,两个字段汇总到一张表(有无关联字段无所谓)

并且要标记出哪个表数据量少,放在MAPJOIN的注释中;

SELECT

           /*+ MAPJOIN (t_2) */t_1.col_1 AS col_1,

           t_2.col_2 AS col_2

       FROM

           t_xxxx AS t_1,

           t_yyyy AS t_2


21.Join长尾优化

长尾SQL在JOIN阶段会将Join Key相同的数据分发到一个Instance上处理。如果某个Key上的数据量较多,会导致该Instance执行时间比其它Instance执行时间长,其表现为:追星日志中该Join Task的大部分Instance多已经执行完成,但少数几个Instance一直处于执行中;

常见解决方案

MapJoin

可以采用MapJoin避免数据倾斜,在SELECT后面加上如下语句:

/*+ mapjoin(t_1) */

其中t_1代表其中的相对来说较小的表或者子查询;

处理空值;

统一去掉空值,或者转化成为随机数(数量级别上可以很大或者很小,不要影响当前字段的其它数据);

热点Key问题

找到热点Key,切分成多个小表/子查询等,再来处理。

22.修改分区生命周期

alter table yyyy.xxxx set LIFECYCLE  731


23.统计重复条数

  SELECT

       id,

       COUNT(*)

   FROM

       db.t_1

   WHERE

       ds=MAX_PT('db.t_1')

   GROUP BY

       id

   HAVING COUNT(*) > 1

)


24.增加字段

alter table db.tb ADD COLUMNS(col1 BIGINT COMMENT '1是,0否')



25.只匹配包含中文的字符串

COLUMN RLIKE '[^\x00-\xff]+'


26.工号前面补0(避免匹配中有些带有前置零的情况)

IF (LENGTH(work_id) < 6 AND work_id NOT RLIKE '^[[:alpha:]]', CONCAT(REPEAT('0', 6 - LENGTH(work_id)), work_id), work_id)


27.打平连接(可选择分隔符)

wm_concat('、', column)


28.列转行(多列转为三、二列,形成kv结构的表)

WITH t_bid_1 AS (

   SELECT

       col_1,

       col_2,

       ...

       col_n

   FROM

       db.table

), t_bid_2 AS (

   SELECT

       id,

       TRIM(SPLIT_PART(field, '^', 1)) AS KEY,

       TRIM(SPLIT_PART(field, '^', 2)) AS VALUE

   FROM (

       SELECT

           id,

           CONCAT("col_1", "^", col_1) AS col_1,

           CONCAT("col_2", "^", col_2) AS col_2,

           ...

           CONCAT("col_n", "^", col_n) AS col_n

       FROM

           t_bid_1

   )

   LATERAL VIEW EXPLODE(ARRAY(id,

                              col_1,

                              col_2,

                              ...

                              col_n

                           )

   ) tb_view AS field

)


29.去掉字符串中括号

SELECT REGEXP_REPLACE('xxxx(yy)zzz', '([(.*?)])', '' )

xxxxyyzzz


30.获取上个月/本月最后一天

2021-07-31 -> LAST_DAY(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), - 1, 'mm'))

20210731 -> REPLACE(LAST_DAY(DATEADD(TO_DATE('${bizdate}', 'yyyymmdd'), - 1, 'mm')), "-", "")

语法:

datetime lastday(datetime <date>)

string last_day(string <date>)



相关文章
|
22天前
|
SQL 存储 缓存
SQL Server 数据太多如何优化
11种优化方案供你参考,优化 SQL Server 数据库性能得从多个方面着手,包括硬件配置、数据库结构、查询优化、索引管理、分区分表、并行处理等。通过合理的索引、查询优化、数据分区等技术,可以在数据量增大时保持较好的性能。同时,定期进行数据库维护和清理,保证数据库高效运行。
|
1月前
|
SQL 移动开发 Oracle
SQL语句实现查询连续六天数据的方法与技巧
在数据库查询中,有时需要筛选出符合特定时间连续性条件的数据记录
|
1月前
|
SQL 存储 关系型数据库
添加数据到数据库的SQL语句详解与实践技巧
在数据库管理中,添加数据是一个基本操作,它涉及到向表中插入新的记录
|
1月前
|
SQL 数据挖掘 数据库
SQL查询每秒的数据:技巧、方法与性能优化
id="">SQL查询功能详解 SQL(Structured Query Language,结构化查询语言)是一种专门用于与数据库进行沟通和操作的语言
|
1月前
|
SQL 监控 数据处理
SQL数据库数据修改操作详解
数据库是现代信息系统的重要组成部分,其中SQL(StructuredQueryLanguage)是管理和处理数据库的重要工具之一。在日常的业务运营过程中,数据的准确性和及时性对企业来说至关重要,这就需要掌握如何在数据库中正确地进行数据修改操作。本文将详细介绍在SQL数据库中如何修改数据,帮助读者更好
241 4
|
1月前
|
SQL 关系型数据库 MySQL
SQL批量插入测试数据的几种方法?
SQL批量插入测试数据的几种方法?
95 1
|
2月前
|
SQL 安全 Go
SQL注入不可怕,XSS也不难防!Python Web安全进阶教程,让你安心做开发!
在Web开发中,安全至关重要,尤其要警惕SQL注入和XSS攻击。SQL注入通过在数据库查询中插入恶意代码来窃取或篡改数据,而XSS攻击则通过注入恶意脚本来窃取用户敏感信息。本文将带你深入了解这两种威胁,并提供Python实战技巧,包括使用参数化查询和ORM框架防御SQL注入,以及利用模板引擎自动转义和内容安全策略(CSP)防范XSS攻击。通过掌握这些方法,你将能够更加自信地应对Web安全挑战,确保应用程序的安全性。
94 3
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
87 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
40 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
48 0

热门文章

最新文章

下一篇
无影云桌面