九个最容易出错的 Hive sql 详解及使用注意事项 (二)

简介: 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。

6. left semi join


为什么把这个单独拿出来说,因为它和其他的 join 语句不太一样,
这个语句的作用和 in/exists 作用是一样的,是 in/exists 更高效的实现
SELECT A.* FROM A where id in (select id from B)
SELECT A.* FROM A left semi join B ON A.id=B.id
上述两个 sql 语句执行结果完全一样,只不过第二个执行效率高


注意事项:


  1. left semi join 的限制是:join 子句中右边的表只能在 on 子句中设置过滤条件,在 where 子句、select 子句或其他地方过滤都不行。
  2. left semi join 中 on 后面的过滤条件只能是等于号,不能是其他的。
  3. left semi join 是只传递表的 join key 给 map 阶段,因此left semi join 中最后 select 的结果只许出现左表。
  4. 因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过


7. 聚合函数中 null 值


hive支持 count(),max(),min(),sum(),avg() 等常用的聚合函数


注意事项:


聚合操作时要注意 null 值:


count(*) 包含 null 值,统计所有行数;

count(id) 不包含id为 null 的值;

min 求最小值是不包含 null,除非所有值都是 null;

avg 求平均值也是不包含 null。


以上需要特别注意,null 值最容易导致算出错误的结果


8. 运算符中 null 值


hive 中支持常用的算术运算符(+,-,*,/)  
比较运算符(>, <, =)
逻辑运算符(in, not in)
以上运算符计算时要特别注意 null 值


注意事项:


  1. 每行中的列字段相加或相减,如果含有 null 值,则结果为 null


例:有一张商品表(product)


id price dis_amount
1 100 20
2 120 null


各字段含义: id (商品id)、price (价格)、dis_amount (优惠金额)


我想算每个商品优惠后实际的价格,sql如下:


select id, price - dis_amount as real_amount from product;


得到结果如下:


id real_amount
1 80
2 null


id=2的商品价格为 null,结果是错误的。


我们可以对 null 值进行处理,sql如下:


select id, price - coalesce(dis_amount,0) as real_amount from product;
使用 coalesce 函数进行 null 值处理下,得到的结果就是准确的
coalesce 函数是返回第一个不为空的值
如上sql:如果dis_amount不为空,则返回dis_amount,如果为空,则返回0


  1. 小于是不包含 null 值,如 id < 10;是不包含 id 为 null 值的。


  1. not in 是不包含 null 值的,如 city not in ('北京','上海'),这个条件得出的结果是 city 中不包含 北京,上海和 null 的城市。


9. and 和 or


在sql语句的过滤条件或运算中,如果有多个条件或多个运算,我们都会考虑优先级,如乘除优先级高于加减,乘除或者加减它们之间优先级平等,谁在前就先算谁。那 and 和 or 呢,看似 and 和 or 优先级平等,谁在前先算谁,但是,and 的优先级高于 or。


注意事项:


例:


还是一张商品表(product)


id classify price
1 电器 70
2 电器 130
3 电器 80
4 家具 150
5 家具 60
6 食品 120


我想要统计下电器或者家具这两类中价格大于100的商品,sql如下:


select * from product where classify = '电器' or classify = '家具' and price>100


得到结果


id classify price
1 电器 70
2 电器 130
3 电器 80
4 家具 150


结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的


正确的 sql 就是加个括号,先计算括号里面的:


select * from product where (classify = '电器' or classify = '家具') and price>100
相关文章
|
4月前
|
SQL HIVE
Hive sql 执行原理
Hive sql 执行原理
43 0
|
4月前
|
SQL 分布式计算 数据挖掘
Hive SQL初级练习(30题)
Hive SQL初级练习(30题)
|
4月前
|
SQL 存储 大数据
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
75 0
|
4月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
96 0
|
1月前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
|
4月前
|
SQL 分布式计算 Hadoop
Hive SQL 优化
Hive SQL 优化
50 1
|
4月前
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
90 0
|
5月前
|
SQL Java 关系型数据库
hive中 sql执行过程
hive中 sql执行过程
67 0
|
5月前
|
SQL JSON 分布式计算
常用的hive sql
常用的hive sql
46 0
|
SQL 分布式计算 负载均衡
Hive SQL优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。
541 0

热门文章

最新文章