概念
数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
数据仓库是决策支持系统(dss)的结构化数据环境。
OLAP与OLTP
- OLTP是联机事务处理,面向交易的处理过程,常见于ERP系统、CRM系统、电商系统等,特点是操作繁琐,数据量小
- OLAP是联机分析处理,是面向决策的系统,支持复杂的分析操作,特点是数据量大,且主要为查询操作。
对比项目 | OLTP | OLAP |
功能 | 面向交易的事务处理 | 面向分析查询 |
设计 | 面向业务 | 面向主题 |
数据 | 最新数据,二维数据 | 历史数据,多维数据 |
数据仓库特点
面向主题
数据库应用是以业务流程来划分应用程序和数据库,比如人力资源管理系统、财务管理系统等等
数据仓库是以数据分析需求来对数据进行组织划分若干主题,比如销售主题、产品主题。
主题的意义在于:以分析需求为导向来组织数据,可以跨库分析,解决数据孤岛问题。
数据集成
主题中的数据是跨应用系统的,也就是说数据是分散在各各应用系统
数据非易失
为了保证数据分析的准确性和稳定性,数据仓库中的数据一般是很少更新的,会将历史快照保存下来
时变
- 增加新数据
- 删除过期数据
- 历史数据明细进行聚合
系统架构