hive：条件查询、join关联查询、分组聚合、子查询

2022-04-14 983

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： hive：条件查询、join关联查询、分组聚合、子查询

hive查询语法

提示：在做小数据量查询测试时，可以让hive将mrjob提交给本地运行器运行，可以在hive会话中设置如下参数：

hive> set hive.exec.mode.local.auto=true;

基本查询示例

select * from t_access;

select count(*) from t_access;

select max(ip) from t_access;

条件查询

select * from t_access where access_time<'2017-08-06 15:30:20'

select * from t_access where access_time<'2017-08-06 16:30:20' and ip>'192.168.33.3';

join关联查询示例

假如有a.txt文件

a,1
b,2
c,3
d,4

假如有b.txt文件

a,xx
b,yy
d,zz
e,pp

进行各种join查询：

inner join（join）

select 
a.name as aname,
a.numb as anumb,
b.name as bname,
b.nick as bnick
from t_a a
join t_b b
on a.name=b.name

结果：

+--------+--------+--------+--------+--+
| aname  | anumb  | bname  | bnick  |
+--------+--------+--------+--------+--+
| a      | 1      | a      | xx     |
| b      | 2      | b      | yy     |
| d      | 4      | d      | zz     |
+--------+--------+--------+--------+--+

left outer join（left join）

select 
a.name as aname,
a.numb as anumb,
b.name as bname,
b.nick as bnick
from t_a a
left outer join t_b b
on a.name=b.name

结果：

图片.png

right outer join（right join）

select 
a.name as aname,
a.numb as anumb,
b.name as bname,
b.nick as bnick
from t_a a
right outer join t_b b
on a.name=b.name

结果：

图片.png

full outer join（full join）

结果：

图片.png

left semi join

hive中不支持exist/IN子查询，可以用left semi join来实现同样的效果：

select 
a.name as aname,
a.numb as anumb
from t_a a
left semi join t_b b
on a.name=b.name;

结果：

图片.png

注意： left semi join的 select子句中，不能有右表的字段

group by分组聚合

select dt,count(*),max(ip) as cnt from t_access group by dt;
select dt,count(*),max(ip) as cnt from t_access group by dt having dt>'20170804';
select 
dt,count(*),max(ip) as cnt 
from t_access 
where url='http://www.edu360.cn/job'
group by dt having dt>'20170804';

注意： 一旦有group by子句，那么，在select子句中就不能有（分组字段，聚合函数）以外的字段

如果想要【select非group by的字段】，可以参考https://blog.csdn.net/fly910905/article/details/80865000

## 为什么where必须写在group by的前面，为什么group by后面的条件只能用having

因为，where是用于在真正执行查询逻辑之前过滤数据用的

having是对group by聚合之后的结果进行再过滤；

上述语句的执行逻辑：

where过滤不满足条件的数据
用聚合函数和group by进行数据运算聚合，得到聚合结果
用having条件过滤掉聚合结果中不满足条件的数据

子查询

select id,name,father 
from 
(select id,name,family_members['brother'] as father from t_person) tmp
where father is not null;

文章标签：

SQL

HIVE

关键词：

Hive join

hive：条件查询、join关联查询、分组聚合、子查询

hive查询语法

基本查询示例

条件查询

inner join（join）

left outer join（left join）

right outer join（right join）

full outer join（full join）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

hive：条件查询、join关联查询、分组聚合、子查询

hive查询语法

基本查询示例

条件查询

inner join（join）

left outer join（left join）

right outer join（right join）

full outer join（full join）

热门文章

最新文章

相关课程

相关电子书