Hive数据仓库-概念

简介: HDFS经理 管理1oo台机器,提供一个接口(数据存储)

数据仓库基础理论

  • HDFS经理 管理1oo台机器,提供一个接口(数据存储)
  • HIVE在hadup进行结构化数据处理的解决方案
  • Spark基于内存计算快 Maprdeues 100倍

概念

  • 数据仓库是一个用于存储,分析,报告的数据系统
  • 数据仓库本身不生产任何数据
  • 不需要消费任何数据,其结果开放给各个外部应用实例
  • 数据仓库目的是构建面向分析的集成化数据环境

数据仓库为何而来

  • 读的压力明显大于写的压力
  • 面向分析,支持分析

面向主题性

数据仓库面向主题,在抽象层面上对数据进行完整,一致和准确的描述

集成性

  • 数据通常会分布在多个操作系统中,彼此分散,独立,异构

非易失性、非异变性

  • 数据仓库是分析数据的平台,而不是创造数据的平台
  • 数据仓库的数据反映的是一段相长的时间内历史数据的内容
  • 数据仓库中一般有大量的查询操作,但修改和删除操作很少

时变性

  • 数据仓库i的数据需要随着时间的更新,以适应决策的需要

OLTP、OLAP

概念

  • 联机事务处理OLTP(小)
  • 焦点在当下
  • 联机分析处理OLAP(大)
  • 主要面向过去,面向历史,实时数仓除外

数据仓库、数 据库

区别

  • 数据库是为了捕获数据而设计,数据仓库是为了分析数据而设计

OSD层

  • 操作型数据层
  • 未经过处理的原始数据至数据仓库系统,是数据仓库的是数据准备区

DW层

  • 数据仓库层,完成数据加工与整合

DA层(或ADS层)

-数据应用层,面向业务定制提供给产品和数据分析使用的数据

ETL

  • 数据仓库从各数据源获取在数据仓库内的数据转换和流动都可以认为是ETL
相关文章
|
7月前
|
SQL 存储 分布式计算
Hive数据仓库设计与优化策略:面试经验与必备知识点解析
本文深入探讨了Hive数据仓库设计原则(分区、分桶、存储格式选择)与优化策略(SQL优化、内置优化器、统计信息、配置参数调整),并分享了面试经验及常见问题,如Hive与RDBMS的区别、实际项目应用和与其他组件的集成。通过代码样例,帮助读者掌握Hive核心技术,为面试做好充分准备。
626 0
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
147 0
|
7月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1113 0
|
7月前
|
SQL 分布式计算 关系型数据库
【数据仓库与联机分析处理】数据仓库工具Hive
【数据仓库与联机分析处理】数据仓库工具Hive
117 6
|
6月前
|
SQL 存储 关系型数据库
杨校老师课题之Hive数据仓库搭建2
杨校老师课题之Hive数据仓库搭建
51 0
|
6月前
|
SQL 存储 关系型数据库
杨校老师课题之Hive数据仓库搭建1
杨校老师课题之Hive数据仓库搭建
79 0
|
7月前
|
SQL 存储 分布式计算
Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
【4月更文挑战第6天】Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
141 1
|
7月前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
822 1
|
7月前
|
SQL 存储 分布式计算
基于Hadoop数据仓库Hive1.2部署及使用
基于Hadoop数据仓库Hive1.2部署及使用
|
7月前
|
存储 SQL 分布式计算
【Hive】为什么要对数据仓库分层?
【4月更文挑战第15天】【Hive】为什么要对数据仓库分层?