文档备案控制台

开发者社区数据库文章正文

Hive 全量表、增量表、拉链表解析

2023-12-29 1424

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive 全量表、增量表、拉链表解析

1.全量表

（1）全量表，有无变化，都要报

（2）每次上报的数据都是所有的数据（变化的 + 没有变化的)

(3) 每天抽取

第一次:

id	name	money	time
1	a	10	2020-05-18 00:01:01
2	b	20	2020-05-18 10:00:00

第二次:

id	name	money	time
1	a	20	2020-05-19 00:01:01
2	b	20	2020-05-18 10:00:00
3	c	10	2020-05-19 00:01:01

分别抽数两次对应全量表

id	name	money	time	dt
1	a	10	2020-05-18 00:01:01	2020-05-18
2	b	20	2020-05-18 10:00:00	2020-05-18

id	name	money	time	dt
1	a	20	2020-05-19 00:01:01	2020-05-19
2	b	20	2020-05-18 10:00:00	2020-05-19
3	c	10	2020-05-19 00:01:01	2020-05-19

2.增量表：只要更新(新增、修改)就同步

第一次:

id	name	money	time
1	a	10	2020-05-18 00:01:01
2	b	20	2020-05-18 10:00:00

第二次:

id	name	money	time
1	a	20	2020-05-19 00:01:01
2	b	20	2020-05-18 10:00:00
3	c	10	2020-05-19 00:01:01

对应两次抽数增量表(需要监控表的改变)

id	name	money	time	dt
1	a	10	2020-05-18 00:01:01	2020-05-18
2	b	20	2020-05-18 10:00:00	2020-05-18

id	name	money	time	dt
1	a	20	2020-05-19 00:01:01	2020-05-19
3	c	10	2020-05-19 00:01:01	2020-05-19

3.拉链表：

(1)不需要像全量表，每天抽取所有数据(节省空间)

(2)可以查看某条记录的历史状态

第一次:

id	name	money	time
1	a	10	2020-05-18 00:01:01
2	b	20	2020-05-18 10:00:00

第二次:

id	name	money	time
1	a	20	2020-05-19 00:01:01
2	b	20	2020-05-18 10:00:00
3	c	10	2020-05-19 00:01:01

对应的拉链表

id	name	money	time	t_start	t_end
1	a	10	2020-05-18 00:01:01	2020-05-18	9999-12-31
2	b	20	2020-05-18 10:00:00	2020-05-18	9999-12-31

id	name	money	time	t_start	t_end
1	a	10	2020-05-18 00:01:01	2020-05-18	2020-05-18
1	a	20	2020-05-19 00:01:01	2020-05-19	9999-12-31
2	b	20	2020-05-18 10:00:00	2020-05-18	9999-12-31
3	c	10	2020-05-19 00:01:01	2020-05-19	9999-12-31

文章标签：

云解析DNS

SQL

HIVE

监控

关键词：

云解析DNS hive

hive云解析DNS

Hive解析

Hive拉链表

Hive量表

诸葛子房

目录

相关文章

夏天49597

|

SQL 存储分布式计算

Hive数据仓库设计与优化策略：面试经验与必备知识点解析

本文深入探讨了Hive数据仓库设计原则（分区、分桶、存储格式选择）与优化策略（SQL优化、内置优化器、统计信息、配置参数调整），并分享了面试经验及常见问题，如Hive与RDBMS的区别、实际项目应用和与其他组件的集成。通过代码样例，帮助读者掌握Hive核心技术，为面试做好充分准备。

夏天49597

1720 0 0

张飞的猪

|

SQL 缓存关系型数据库

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

Hive引擎允许对HDFS Hive表执行 `SELECT` 查询。目前它支持如下输入格式: -文本:只支持简单的标量列类型，除了 `Binary` - ORC:支持简单的标量列类型，除了`char`; 只支持 `array` 这样的复杂类型 - Parquet:支持所有简单标量列类型;只支持 `array` 这样的复杂类型

张飞的猪

760 1 1

kng32f3vbngrm

|

SQL 存储 JSON

Hive 解析 JSON 字符串数据的实现方式

Hive 提供 `get_json_object` 函数解析 JSON 字符串，如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外，Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件，无需手动解析。创建表时指定 `JsonSerDe` 序列化器，并在 HDFS 上存放 JSON 文件，可以直接查询字段内容，方便快捷。

kng32f3vbngrm

1995 3 3

Byyyi

|

SQL 存储 Java

Hive 拉链表详解及实例

拉链表是一种数据仓库技术，用于处理持续增长且存在时间范围内的重复数据，以节省空间。它在Hive中通过列式存储ORC实现，适用于大规模数据场景，尤其当数据在有限时间内有多种状态变化。配置涉及事务管理和表合并选项。示例中展示了如何从原始订单表创建拉链表，通过聚合操作和动态分区减少数据冗余。增量数据可通过追加到原始表然后更新拉链表来处理。提供的Java代码用于生成模拟的订单增量数据，以演示拉链表的工作流程。

Byyyi

1189 3 4

诸葛子房

|

SQL HIVE

Hive全量表和增量表互相转换

Hive全量表和增量表互相转换

诸葛子房

635 1 1

赵广陆

|

SQL 大数据 Java

大数据Hive URL解析函数及侧视图

大数据Hive URL解析函数及侧视图

赵广陆

556 0 0

Maynor

|

SQL 数据采集数据挖掘

大数据行业应用之Hive数据分析航班线路相关的各项指标

大数据行业应用之Hive数据分析航班线路相关的各项指标

Maynor

645 1 1

青云交（Java大数据AI云原生Python）

|

SQL 分布式计算大数据

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。

青云交（Java大数据AI云原生Python）

990 78 78

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

1941623231718325

|

SQL 分布式计算大数据

大数据处理平台Hive详解

【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具，在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言，Hive降低了数据处理的门槛，使得具有SQL背景的开发者可以轻松地处理大规模数据。然而，Hive也存在查询延迟高、表达能力有限等缺点，需要在实际应用中根据具体场景和需求进行选择和优化。

1941623231718325

1396 6 6

热门文章

最新文章

VPC DHCP类型的ECS修改DNS

DNS三部曲之DNS的迭代、递归、转发

山特UPS电源三种工作模式解析

2016大数据创新大赛——机场客流量的时空分布预测模型解析

《走进git时代系列三》详解部分git思想及SVN/GIT命令对比解析

阿里视频云最强转码技术揭秘：窄带高清原理解析+用户接入指南

Elasticsearch中的三种分页策略深度解析：原理、使用及对比

深入解析MySQL 8中的角色与用户管理

蓝桥杯历届真题题目+解析+代码+答案（2013-2020）（JavaA、B、C组）（C++语言）（Python）

vsftpd配置常用参数集合解析

网易云信 x Doris：降本70%、提速11倍，统一 ES/InfluxDB/Hive 多技术栈的落地实践

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

Hive的基础操作指南

分布式存储数据恢复—hbase和hive数据库数据恢复案例

【YashanDB知识库】DataX迁移Hive到崖山分布式

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【YashanDB 知识库】Hive 命令工具 insert 崖山数据库报错

【YashanDB知识库】hive初始化崖山报错YAS-04209

【YashanDB知识库】hive初始化崖山报错YAS-04209

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

云解析DNS在安全容灾场景下的应用分享

推荐镜像

更多

DNS

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！