Hive数据仓库-概念

简介: HDFS经理 管理1oo台机器,提供一个接口(数据存储)

数据仓库基础理论

  • HDFS经理 管理1oo台机器,提供一个接口(数据存储)
  • HIVE在hadup进行结构化数据处理的解决方案
  • Spark基于内存计算快 Maprdeues 100倍

概念

  • 数据仓库是一个用于存储,分析,报告的数据系统
  • 数据仓库本身不生产任何数据
  • 不需要消费任何数据,其结果开放给各个外部应用实例
  • 数据仓库目的是构建面向分析的集成化数据环境

数据仓库为何而来

  • 读的压力明显大于写的压力
  • 面向分析,支持分析

面向主题性

数据仓库面向主题,在抽象层面上对数据进行完整,一致和准确的描述

集成性

  • 数据通常会分布在多个操作系统中,彼此分散,独立,异构

非易失性、非异变性

  • 数据仓库是分析数据的平台,而不是创造数据的平台
  • 数据仓库的数据反映的是一段相长的时间内历史数据的内容
  • 数据仓库中一般有大量的查询操作,但修改和删除操作很少

时变性

  • 数据仓库i的数据需要随着时间的更新,以适应决策的需要

OLTP、OLAP

概念

  • 联机事务处理OLTP(小)
  • 焦点在当下
  • 联机分析处理OLAP(大)
  • 主要面向过去,面向历史,实时数仓除外

数据仓库、数 据库

区别

  • 数据库是为了捕获数据而设计,数据仓库是为了分析数据而设计

OSD层

  • 操作型数据层
  • 未经过处理的原始数据至数据仓库系统,是数据仓库的是数据准备区

DW层

  • 数据仓库层,完成数据加工与整合

DA层(或ADS层)

-数据应用层,面向业务定制提供给产品和数据分析使用的数据

ETL

  • 数据仓库从各数据源获取在数据仓库内的数据转换和流动都可以认为是ETL
相关文章
存储 SQL 数据采集
60 0
|
4月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
SQL 存储 关系型数据库
杨校老师课题之Hive数据仓库搭建2
杨校老师课题之Hive数据仓库搭建
100 0
|
SQL 存储 关系型数据库
杨校老师课题之Hive数据仓库搭建1
杨校老师课题之Hive数据仓库搭建
171 0
|
SQL 分布式计算 关系型数据库
【数据仓库与联机分析处理】数据仓库工具Hive
【数据仓库与联机分析处理】数据仓库工具Hive
315 6
|
SQL 存储 分布式计算
基于Hadoop数据仓库Hive1.2部署及使用
基于Hadoop数据仓库Hive1.2部署及使用
|
存储 SQL 分布式计算
【Hive】为什么要对数据仓库分层?
【4月更文挑战第15天】【Hive】为什么要对数据仓库分层?
|
SQL 存储 分布式计算
Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
【4月更文挑战第6天】Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
421 1
|
SQL HIVE
Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
【4月更文挑战第6天】Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
386 0
|
SQL 存储 分布式计算
Hive数据仓库设计与优化策略:面试经验与必备知识点解析
本文深入探讨了Hive数据仓库设计原则(分区、分桶、存储格式选择)与优化策略(SQL优化、内置优化器、统计信息、配置参数调整),并分享了面试经验及常见问题,如Hive与RDBMS的区别、实际项目应用和与其他组件的集成。通过代码样例,帮助读者掌握Hive核心技术,为面试做好充分准备。
1171 0

热门文章

最新文章