hiveql笔记(一)

简介: 1、创建表create table if not exists mydb.employees{  name  String COMMENT 'Employee name',  salary  FLOAT COMMENT 'Empolyee salary',  subordinates APP...

1、创建表

create table if not exists mydb.employees{

  name  String COMMENT 'Employee name',

  salary  FLOAT COMMENT 'Empolyee salary',

  subordinates APPAY<STRING> COMMENT 'Names of subordinates',

  deductions MAP<STRING,FLOAT>

        COMMENT 'Keys are deductions names,values are percentages'

  address  STRUCT<street:STRING,city:String,state:STRING,zip:INT>

        COMMENT 'Home address')

  COMMENT 'Desription of the table'

  TBLPROPERITES ('creator '='me','created_at'='2012-01-02 10:00:00',...)

  LOCATION '/usr/hive/warehouse/mydb.db/employees';

Hive 会自动添加两个表属性:一个是last_modified_by,其保存着最后修改这个表的用户的用户名。另一个是last_modified_time,其保存着最后修改的新纪元时间秒。

 

2、查看表的详细表结构信息

DESCRIBE EXTENDED mydb.employees;

//在表名后添加字段的名称,使用extended关键字也不会增加更多的输出信息。

DESCRIBE mydb.employees.salary;

 

3、外部表

CREATE EXTERNAL TABLE IF NOT EXISTS stocks (

  exchange  STRING,

  symbol    STRING,

  ymd      STRING,

  price_open  FLOAT,

  price_high   FLOAT,

  price_low  FLOAT,

  price_close  FLOAT,

  volume    INT,

  price_adj_close  FLOAT)

  ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘

  LOCATION '/data/stocks';

关键字EXTENAL告诉hive这个表是外部的,而后面的LOCATION..子句则用于告诉HIVE数据位于哪个路径下。

//还可以对一张存在的表进行结构复制(而不会复制数据)

  CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3

  LIKE mydb.employees

  LOCATION '/path/to/data';

 

4、分区表、管理表

CREATE TABLE employees (

  name  String,

  salay  FLOAT,

  subordinates  APPAY<STRING>,

  deductions  MAP<STRING,FLOAT>,

  address  STRUCT<street:STRING,city:STRING,state:STRING,zip:INT>

PARTITIONED BY (country STRING,state STRING);

分区表改变了Hive对数据存储的组织方式,这个表会有一个exployees目录与之对应,每个分区都有一个partXX

 

//可以使用show partitions命令查看表中存在的所有分区:

SHOW PARTITIONS employees; 

//如果表中存在很多的分区,而只想查看是否存储某个特定分区键的分区的话,还可以在命令上添加指定了一个或多个特定分区字段值的PARTITION子句:

SHOW PARTITIONS employees PARTITION(country='US');

SHOW PARTITIONS employees PARTITION(country='US',state='AK');

 

5、外部分区表

CREATE EXTERNAL TABLE IF NOT EXISTS log_messages (

  hms  INT,

  severity  STRING,

  server    STRING,

  porcess_id  STRING,

  message  STRING)

PARTITIONED BY (year INT,month INT,day INT)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

//添加一个分区

ALTER TABLE log_messages ADD PARTITION(year = 2012,month = 1,day =2 )

LOCATITION 'hdfs://master_server/data/log_message/2012/01/02';

 

//将一个月前的分区数据拷贝到其他集群

hadoop distcp /data/log_message/2011/12/02  s3n://ourbucket/logs/2011/12/02

 

//修改表,将分区路径指向到S3路径:

ALTER TABLE log_messages PARTITION(year = 2011,month = 12,day = 2)

SET LOCATION 's3m://ourbucket/logs/2011/01/02';

 

//DESCRIBE EXTENDED log_message 语句会将分区键作为表的模式的一部分,和partitionKeys列表的内容同时进行显示:

DESCRIBE EXTENDED log_messages;

 

6、删除表

DROP TABLE IF EXISTS employees;

//这里有个知识点,如果开启了Hadoop回收站功能(默认是关闭),那么数据将会转移到用户在分布式文件系统中的用户跟目录下的.Trash目录下,也就是HDFS中的/usr/$USER/.Trash目录,如果要开启这个功能,需要配置fs.trash.internal的值。设置一个合理的整数,比如如果设置1440,那么就表示是24小时。

 

7、表重命名

ALTER TABLE log_messages RENAME TO logmsgs;

 

8、修改列信息

ALTER TABLE log_messages

CHANGE COLUMN hms hours_minutes_seconds INT

COMMENT 'The hours,minutes, and seconds part of the timestamp'

AFTER severity;

//这里说明,如果想将这个字段移动到第一个位置,需要使用FIRST关键字替代AFTER other_column子句即可。

 

9、增加列

 ALTER TABLE log_messages ADD COLUMNS (

  app_name STRING COMMENT 'Application name',

  session_id LONG COMMENT 'The current session id');

 

10、删除或者替换列

//移除了之前所有的字段并重新指定了新的字段:

ALTER TABLE log_messages REPLACE COLUMNS (

  hours_mins_secs INT COMMENT 'hour,minute,seconds from timestamp',

  serverity STRING COMMENT 'The message severity'

  message STRING COMMENT 'The rest of the message');

 

11、修改存储属性

ALTER TABLE log_messages

PARTITION(year = 2012,month = 1,day = 1)

SET FILEFORMAT SEQUENCEFILE;

 

12、通过查询语句向表中插入数据

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US' , state = 'OR' )

SELECT * FROM staged_employees se

WHERE se.cnty = 'US' AND se.st = 'OR';

//如果是非分区表,之前表中的内容将会被覆盖掉

 

13、动态分区插入

//指定了country字段的值为静态的US,而分区字段state是动态值。

INSERT OVERWRITE TABLE employees

PARTITION (country='US',state)

SELECT ...,se.cnty,se.st

FROM staged_employees se

WHERE se.cnty = 'US';

(静态分区键必须出现在动态分区键之前)

//延伸动态分区属性:

hive.exec.dynamic.partition  false      设置成true,表示开启动态分区功能

hive.exec.dynamic.partition.mode  strict   设置成strict,表示允许所有分区都是动态的

hive.exec.max.dynamic.parition.pernode  100  每个mapper或reducer可以创建的最大动态分区个数。如果某个mapper或reducer尝试创建大于这个值得分区的话则会抛出一个致命错误信息。

hive.exec.max.dynamic.partitions  +1000  一个动态分区创建语句可以创建的最大动态分区个数。如果超过这个值则会抛出一个致命错误信息。

hive.exec.max.created.files  100000  全局可以创建的最大文件个数。

eg:

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrct;

set.hive.exec.max.dynamic.partitions.pernode=1000;

INSERT OVERWRITE TABLE employees

PARTITION (country,state)

SELECT ...,se.cty,se.st

FROM staged_employees se;

 

14、单个查询语句中创建表并加载数据

CREATE TABLE ca_employees

as SELECT name,salary,address

FROM employees

WHERE se.state = 'CA';

 

15、导出数据

hadoop fs -cp sorce_path target_path

//也可以使用INSERT...DIRECTORY...

INSERT OVERWRITE LOCAL DIRECTOR 'tmp/ca_employees'

SELECT name,salary,address

From employees

WHERE se.state = 'CA';

 

参考文献《Hive编程指南》

目录
相关文章
|
SQL 数据处理 数据库
时序数据库 TDengine SQL 查询语法规则汇总,官方教程奉上!
TDengine 采用 SQL 作为查询语言,本文将就部分查询细则做分析。
528 1
|
6月前
kettle开发篇-行转列
kettle开发篇-行转列
382 0
|
SQL 移动开发 并行计算
不需要编写代码,也能成为Hive SQL面试高手?ChatGPT告诉你...
当你面对 Hive SQL 面试时,不仅需要掌握 SQL 语言的基本知识,还需要熟练掌握 Hive SQL 的一些高级特性,比如窗口函数、分区等等。对于初学者而言,写出高效的 Hive SQL 代码往往是一件困难的事情,而这恰恰是面试官最为看重的。但是,你不必担心!现在,有一种神奇的工具——ChatGPT,可以帮助你快速生成 Hive SQL 代码,解决你在面试中遇到的各种难题。本文将会介绍如何使用 ChatGPT 生成 Hive SQL 代码,让你在面试中轻松成为 Hive SQL 面试高手,无需编写代码也能毫不费力地完成面试题。 让我们一起来看看吧!
|
SQL 存储 缓存
万字全面总结 | HiveSQL优化方法
详细的HiveSQL优化方法
694 1
万字全面总结 | HiveSQL优化方法
|
SQL 存储 关系型数据库
MySQL基础教程8——DQL—高级数据查询
可以查询到一共有1条数据,注意如果count(字段列表)中字段有空值是不会被记录到该条数据。
|
关系型数据库 MySQL 数据库
MySQL查询 合集
如何把数据库一张表中所有可以向下取整的数都替换为向下取整的数据
81 0
|
SQL 存储 数据可视化
手把手教你进行Mysql查询操作
手把手教你进行Mysql查询操作
191 0
手把手教你进行Mysql查询操作
|
SQL 存储 分布式计算
Hive的基本知识与操作
Hive的基本概念 Hive的三种交互方式 Hive元数据 Hive的基本操作 Hive的数据类型 Hive的文件格式 Hive的表操作 Hive外部表 Hive导出数据
|
SQL OLAP HIVE
Hive窗口函数保姆级教程 (一)
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。
926 0
Hive窗口函数保姆级教程 (一)
|
SQL OLAP HIVE
Hive窗口函数保姆级教程 (三)
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。
262 0
Hive窗口函数保姆级教程 (三)