黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

1. 数据库操作

  • 创建数据库
create database if not exists myhive;
  • 查看数据库详细信息
desc database myhive;
  • 数据库本质上就是在HDFS之上的文件夹
  • 默认数据库的存放路径是HDFS的:/user/hive/warehouse内
  • 创建数据库并指定hdfs存储位置
create database myhive2 location '/myhive2';
  • 删除一个空数据库
drop  database  myhive;
  • 强制删除数据库
drop  database  myhive2  cascade;

2. 数据表操作

2.1 表操作语法和数据类型

2.2 内部表操作

  1. 内部表和外部表

内部表(CREATE TABLE table_name …)

未被external关键字修饰的即是内部表, 即普通表。 内部表又称管理表,内部表数据存储的位置由hive.metastore.warehouse.dir参数决定(默认:/user/hive/warehouse),删除内部表会直接删除元数据(metadata)及存储数据,因此内部表不适合和其他工具共享数据。

外部表(CREATE EXTERNAL TABLE table_name …LOCATION…)

被external关键字修饰的即是外部表, 即关联表。

外部表是指表数据可以在任何位置,通过LOCATION关键字指定。 数据存储的不同也代表了这个表在理念是并不是Hive内部管理的,而是可以随意临时链接到外部数据上的。

  1. 内部表和外部表对比

  2. 创建内部表
  • 创建表
create table table_name……
  • 查看表的数据
  1. 自定义指定分隔符
create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t';
  1. 删除内部表
drop table table_name

2.3 外部表操作

  1. 创建外部表语法
  • create external table ……
  • 必须使用row format delimited fields terminated by指定列分隔符
  • 必须使用location指定数据路径
  1. 外部表和其数据相互独立
  • 可以先有表后有数据
  • 也可以先有数据,后有表
  • 表和数据只是一个链接关系
  • 所以删除表,表不存在了但数据保留。
  1. 内外部表转换
  • 内转外:stu set tblproperties(‘EXTERNAL’=‘TRUE’)
  • 外转内:stu set tblproperties(‘EXTERNAL’=‘FALSE’)

2.4 数据加载和导出

  1. 外部表是临时使用的,重要数据建议存入内部表进行管理
  2. 加载数据的语法
  • load data [local] inpath ‘filepath’ [overwrite] into table tablename;
  • insert into | overwrite select ……
  1. 注意事项
  • 数据来源本地,本地数据会保留,本质是本地文件上传到HDFS
  • 数据来自HDFS,加载后文件不存在,本质是在HDFS上进行文件移动
  1. Hive数据导出的方式
  • insert [local] select
  • bin/hive -e ‘SQL’ > file
  • bin/hive -f ‘sql file’ > file

2.5 分区表

  1. 分区表的定义
  • 可以选择字段作为表分区
  • 分区其实就是HDFS上的不同文件夹
  • 分区表可以极大的提高特定场景下Hive的操作性能
  1. 分区表的语法
  • create table tablename(…) partitioned by (分区列 列类型)
  • 分区表的分区列,在partitioned by中定义,不在普通列中定义

2.6 分桶表

  1. 分桶表定义
  • 可以选择字段作为分桶字段
  • 分桶表本质上是数据分开在不同的文件中
  • 分区和分桶可以同时使用
  1. 分桶表的语法
  • 通过clustered by(c_id) into 3 buckets
  • clustered by 指定分桶字段
  • into num buckets指定分桶数量
  1. 分桶表能带来什么性能提升
  • 单值过滤
  • JOIN
  • GROUP BY

2.7 修改表

  • 表重命名
alter  table  old_table_name  rename  to  new_table_name;
  • 修改表属性值
ALTER TABLE table_name SET TBLPROPERTIES table_properties;
  • 添加分区
ALTER TABLE tablename  ADD PARTITION (month='201101');
  • 修改分区值
ALTER TABLE tablename PARTITION (month='202005') RENAME TO PARTITION (month='201105');
  • 删除分区
ALTER TABLE tablename DROP PARTITION (month='201105');
  • 添加列
ALTER TABLE table_name ADD COLUMNS (v1 int, v2 string);
  • 修改列名
ALTER TABLE test_change CHANGE v1 v1new INT;
  • 删除表
DROP TABLE tablename;
  • 清空表
TRUNCATE TABLE tablename;

2.8 复杂类型操作

2.8.1 Array数组

  1. array类型,主要存储数组格式
  2. 定义格式
  • array<类型>
  • 数组元素之间的分隔符:collection items terminated by ‘分隔符’
  1. 在查询中使用
  • 数组[数字序号],可以取出指定需要元素
  • size(数组),可以统计数组元素个数
  • array contains(数组,数据),可以查看指定数据是否在数组中存在

2.8.2 Map映射

  1. map类型,主要存储:K-V键值对类型数据
  2. 定义格式
  • map<key类型,value类型>
  • 不同键值对之间:collection items terminated by ‘分隔符’
  • 一个键值对内:map keys terminated by ‘分隔符’
  1. 在查询中使用
  • map[key]来获取指定key的值
  • map_keys(map)取到全部的key作为array返回,map_values(map)取到全部的values
  • size(map)可以统计K-V对的个数

array_contains(map_values(map),数据)可以统计map是否包含指定数据

2.8.3 Struct结构

struct类型,主要存储:复合格式

定义格式

structname:string,age:int

struct的分隔符只需要:collection items terminated by ‘分隔符’

  1. 在查询中使用
  • struct.key即可取得对应的value

3. 数据查询

3.1 基本查询

Hive中使用基本查询SELECT、WHERE、GROUP BY、聚合函数、HAVING、JOIN和普通的SQL语句没有区别

3.2 RLIKE 正则匹配

可以基于正则表达式,对数据内容进行匹配

3.3 UNION联合

  • 将多个SELECT的结果集合并成一个
  • 多个SELECT的结果集需要架构一致
  • 自带去重效果,如无需去重,使用UNION ALL 即可

3.4 Sampling采样

桶抽样方式:tablesample(bucket x out of y on (colname | rand()))

块抽样方式:tablesample(num rows | num percent | num(K|M|G))

3.5 Virtual Columns虚拟列

  1. 虚拟列
  • INPUT__FILE__NAME,显示数据行所在的具体文件
  • BLOCK__OFFSET__INSIDE__FILE,显示数据行所在文件的偏移量
  • ROW__OFFSET__INSIDE__BLOCK,显示数据所在HDFS块的偏移量(此虚拟列需要设置:SET hive.exec.rowoffset=true )才可使用
  1. 作用
  • 查看行级别的数据详细参数
  • 可以用于where、group by等
  • 可以协助进行错误排查工作

4. 函数

5. 案例

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
21天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
56 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
12天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
12天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
41 3
|
30天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
39 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
76 0
|
1月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
58 0
|
2月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
4月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
115 13
|
4月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
下一篇
无影云桌面