Hive全量表和增量表互相转换

简介: Hive全量表和增量表互相转换

一、增量表变全量表

昨天和前天的full join  t1---昨天   t2--前天

INSERT OVERWRITE TABLE table_df PARTITION(ds = '${bizdate}')
select 
IF(t1.id IS NULL, t2.id, t1.id) AS id,
IF(t1.name IS NULL, t2.name, t1.name) AS id
from (select id,name from s_table where ds='${bizdate}') t1
FULL OUTER JOIN
(select id,name from table_di where ds = '${yyyymmdd-1}') t2
on t1.id=t2.id;

二。全量表改增量表

昨天和前天的数据之差

@day_2_table := 
    select 
        md5(concat(
            coalesce(name,0),
            coalesce(age,0)
        )) as compare
        ,row_pk 
    from table_df n
    where ds='${yyyymmdd-1}'
;
@day_1_table :=
select 
        md5(concat(
            coalesce(name,0),
            coalesce(age,0)
        )) as compare
        ,row_pk 
    from table_df n
    where ds='${bizdate}'
;
INSERT OVERWRITE TABLE table_di PARTITION(ds = '${bizdate}')
select row_pk,
       name,
       age
from table_df
where ds='${bizdate}'
and row_pk in 
(
    select t1.row_pk
    from 
    @day_1_table t1
    left outer join
    @day_2_table t2
    on t1.row_pk=t2.row_pk
    where t2.row_pk is null or t1.compare<>t2.compare
)
;


相关文章
|
7月前
|
SQL 监控 HIVE
Hive 全量表、增量表、拉链表 解析
Hive 全量表、增量表、拉链表 解析
795 0
|
7月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
196 1
|
SQL Java 大数据
Hive实战(03)-深入了解Hive JDBC:在大数据世界中实现数据交互
Hive实战(03)-深入了解Hive JDBC:在大数据世界中实现数据交互
612 1
|
SQL 分布式计算 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
157 0
|
7月前
|
SQL 存储 大数据
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
258 0
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
145 0
|
7月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
274 0
|
7月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1096 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
41 0
|
5月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。