【Hive】(七)Hive 查询使用详解1

简介: 【Hive】(七)Hive 查询使用详解1

文章目录


查询语句语法

一、基本查询(Select…From)

1.1 全表和特定列查询

1.2 列别名

1.3 算术运算符

1.4 常用函数

1.5 Limit语句

二、Where语句

2.1 比较运算符(Between/In/ Is Null)

2.2 Like和RLike

2.3 逻辑运算符(And/Or/Not)

三、分组

3.1 Group By语句

3.2 Having语句

四、Join语句

4.1 等值Join

4.2 表的别名

4.3 内连接

4.4 左外连接

4.5 右外连接

4.6 满外连接

4.7 多表连接

4.8 笛卡尔积

4.9 连接谓词中不支持or

五、排序

5.1 全局排序(Order By)

5.2 按照别名排序

5.3 多个列排序

5.4 每个MapReduce内部排序(Sort By)

5.5 分区排序(Distribute By)

5.6 Cluster By

六、分桶及抽样查询

6.1 分桶表数据存储

6.2 分桶抽样查询


查询语句语法


[WITH CommonTableExpression (, CommonTableExpression)*]    (Note: Only available
 starting with Hive 0.13.0)
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
  FROM table_reference
  [WHERE where_condition]
  [GROUP BY col_list]
  [ORDER BY col_list]
  [CLUSTER BY col_list
    | [DISTRIBUTE BY col_list] [SORT BY col_list]
  ]
 [LIMIT number]


一、基本查询(Select…From)


1.1 全表和特定列查询


1.全表查询

hive (default)> select * from emp;


2.选择特定列查询

hive (default)> select empno, ename from emp;


注意:


(1)SQL 语言大小写不敏感。

(2)SQL 可以写在一行或者多行

(3)关键字不能被缩写也不能分行

(4)各子句一般要分行写。

(5)使用缩进提高语句的可读性。


1.2 列别名


1.重命名一个列

2.便于计算

3.紧跟列名,也可以在列名和别名之间加入关键字‘AS’

4.案例实操


查询名称和部门

hive (default)> select ename AS name, deptno dn from emp;


1.3 算术运算符


image.png

案例实操


查询出所有员工的薪水后加1显示。

hive (default)> select sal  1 from emp;


1.4 常用函数


1.求总行数(count)

hive (default)> select count(*) cnt from emp;


2.求工资的最大值(max)

hive (default)> select max(sal) max_sal from emp;


3.求工资的最小值(min)

hive (default)> select min(sal) min_sal from emp;


4.求工资的总和(sum)

hive (default)> select sum(sal) sum_sal from emp;


5.求工资的平均值(avg)

hive (default)> select avg(sal) avg_sal from emp;


1.5 Limit语句


典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。

hive (default)> select * from emp limit 5;


二、Where语句


1.使用WHERE子句,将不满足条件的行过滤掉


2.WHERE子句紧随FROM子句


3.案例实操


查询出薪水大于1000的所有员工

hive (default)> select * from emp where sal >1000;


2.1 比较运算符(Between/In/ Is Null)


1)下面表中描述了谓词操作符,这些操作符同样可以用于JOIN…ON和HAVING语句中。

image.png

2)案例实操


(1)查询出薪水等于5000的所有员工

hive (default)> select * from emp where sal =5000;


(2)查询工资在500到1000的员工信息

hive (default)> select * from emp where sal between 500 and 1000;


(3)查询comm为空的所有员工信息

hive (default)> select * from emp where comm is null;


(4)查询工资是1500或5000的员工信息

hive (default)> select * from emp where sal IN (1500, 5000);


2.2 Like和RLike


1)使用LIKE运算选择类似的值


2)选择条件可以包含字符或数字:


% 代表零个或多个字符(任意个字符)。


_ 代表一个字符。


3)RLIKE子句是Hive中这个功能的一个扩展,其可以通过Java的正则表达式这个更强大的语言来指定匹配条件。


4)案例实操


(1)查找以2开头薪水的员工信息

hive (default)> select * from emp where sal LIKE '2%';


(2)查找第二个数值为2的薪水的员工信息

hive (default)> select * from emp where sal LIKE '_2%';


(3)查找薪水中含有2的员工信息

hive (default)> select * from emp where sal RLIKE '[2]';


2.3 逻辑运算符(And/Or/Not)


image.png


案例实操


(1)查询薪水大于1000,部门是30

hive (default)> select * from emp where sal>1000 and deptno=30;


(2)查询薪水大于1000,或者部门是30

hive (default)> select * from emp where sal>1000 or deptno=30;


(3)查询除了20部门和30部门以外的员工信息

hive (default)> select * from emp where deptno not IN(30, 20);


三、分组


3.1 Group By语句


GROUP BY语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。


案例实操:

(1)计算emp表每个部门的平均工资

hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;


(2)计算emp每个部门中每个岗位的最高薪水

hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t group by
 t.deptno, t.job;


3.2 Having语句


1.having与where不同点


(1)where针对表中的列发挥作用,查询数据;having针对查询结果中的列发挥作用,筛选数据。

(2)where后面不能写分组函数,而having后面可以使用分组函数。

(3)having只用于group by分组统计语句。


2.案例实操


(1)求每个部门的平均薪水大于2000的部门


求每个部门的平均工资

hive (default)> select deptno, avg(sal) from emp group by deptno;


求每个部门的平均薪水大于2000的部门

hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno having
 avg_sal > 2000;


四、Join语句


4.1 等值Join

Hive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。

案例实操


(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;

hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d
 on e.deptno = d.deptno;


4.2 表的别名


1.好处


(1)使用别名可以简化查询。

(2)使用表名前缀可以提高执行效率。


2.案例实操


合并员工表和部门表

hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno
 = d.deptno;


4.3 内连接


内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno
 = d.deptno;


4.4 左外连接


左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno
 = d.deptno;


4.5 右外连接


右外连接:JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno
 = d.deptno;


4.6 满外连接


满外连接:将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。

hive (default)> select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno
 = d.deptno;


4.7 多表连接


注意:连接 n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个连接条件。


数据准备


1.创建位置表

create table if not exists default.location(
loc int,
loc_name string
)
row format delimited fields terminated by '\t';


2.导入数据

hive (default)> load data local inpath '/opt/module/datas/location.txt' into table default.location;


3.多表连接查询

hive (default)>SELECT e.ename, d.deptno, l. loc_name
FROM   emp e 
JOIN   dept d
ON     d.deptno = e.deptno 
JOIN   location l
ON     d.loc = l.loc;


大多数情况下,Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。


注意:为什么不是表d和表l先进行连接操作呢?这是因为Hive总是按照从左到右的顺序执行的。


4.8 笛卡尔积


1.笛卡尔集会在下面条件下产生


(1)省略连接条件

(2)连接条件无效

(3)所有表中的所有行互相连接


2.案例实操

hive (default)> select empno, dname from emp, dept;


4.9 连接谓词中不支持or

hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno
= d.deptno or e.ename=d.ename;   错误的


目录
相关文章
|
SQL 分布式计算 Hadoop
Hive使用Impala组件查询(1)
Hive使用Impala组件查询(1)
420 0
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
251 0
|
SQL HIVE
Hive分区+根据分区查询
Hive分区+根据分区查询
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
46 4
|
2月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
37 2
|
6月前
|
SQL 资源调度 数据库连接
Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南
在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`
439 0
|
7月前
|
SQL 存储 大数据
Hive的查询、数据加载和交换、聚合、排序、优化
Hive的查询、数据加载和交换、聚合、排序、优化
138 2
|
7月前
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
763 0
|
7月前
|
SQL 分布式计算 Java
Hive【Hive(三)查询语句】
Hive【Hive(三)查询语句】
|
SQL 存储 大数据
大数据Hive Join连接查询
大数据Hive Join连接查询
127 0
下一篇
无影云桌面