【DBMS 数据库管理系统】数据库 -> 数据仓库 ( 数据处理类型 | 传统数据库 | 数据库不适用于分析型应用 )

简介: 【DBMS 数据库管理系统】数据库 -> 数据仓库 ( 数据处理类型 | 传统数据库 | 数据库不适用于分析型应用 )

文章目录

一、数据处理类型

二、传统数据库技术

三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因

四、事务性处理 与 分析型处理 性能特性不同

五、数据集成问题

六、数据集成问题 : 数据分散原因

七、数据集成问题 : 数据仓库引入

八、数据动态集成问题

九、历史数据问题

十、数据综合问题





一、数据处理类型


数据处理类型 :



① 操作型处理 : 又称为 事务型处理 ;


处理内容 : 与业务活动相关 , On-Line Transaction Processing ( OLTP ) 联机事务处理过程 ;

主要作用 : 对数据联机的日常操作 , 对一个或一组数据进行查询 , 修改 ; 关注 响应时间 , 数据安全性 , 完整性 ;

示例 : 与业务相关的操作 ( 如网上购物 , 各种网络应用等 ) , 要求反应时间快 , 占用资源少 ;


② 分析型处理 :


处理内容 : 与决策活动相关 , OLAP 联机分析处理过程 ;

主要作用 : 用于管理人员决策分析 , DSS 决策支持系统 , EIS 企业信息系统 , 多维分析 , 需要访问大量历史数据 ( 5 ~ 10 年 时间跨度大 / 企业内外 数据范围广 ) ;

示例 : 由管理人员使用 , 如 CEO , CFO 等 , 对企业数据进行分析 , 然后做出决策 ;



上述两种操作差异巨大 , 操作型处理 和 分析性处理 的数据必须 分离存放 ;


在数据仓库出现之前 , 上述两种处理类型都放在数据库中进行处理 , 其中分析性处理效果不好 , 因此提出不同的数据类型 , 放在不同的数据载体中 :


操作型 : OLTP 联机事务处理 , 数据放在 数据库 中 ;

分析性 : OLAP 联机分析处理 , 数据放在 数据仓库 中 ;





二、传统数据库技术


传统数据库技术 :


数据资源 : 单一的数据资源 , 数据库 ;

进行的处理 : 事务处理 , 批处理 , 决策分析 , 等各种类型数据处理工作 ;


不同数据处理有不同的要求 : 上述数据处理有不同的特点 ;


反应时间 : 有的要求反应执行时间快 , 有的不要求实时性 ;

返回数据量 : 有的需要获取大量数据 , 有的只需要返回一个值 ;


传统数据库弊端 : 单一的数据组织方式 ( 传统数据库 ) , 无法满足数据处理多样化需求 ;




传统数据库 重要性 :


数据库是所有 信息系统基础 ;

主要用于 事务处理方面 ;

发展阶段 : ① 网状数据库 , ② 层次数据库 , ③ 关系数据库 ;

不适合分析型应用 : 传统数据库很重要 , 扔发挥着重大作用 , 但是在分析型应用中 , 使用数据库存储数据不太适合 ;




数据库 不适合 分析型应用 ( DSS ) :


数据库的三级模式 : 内模式 , 外模式 , 模式 ;


外模式 : 任何数据库应用都是 建立在外模式之上的 , 需要进行编程实现 ;


数据库对 DSS 支持有限 : 传统数据库 的 即席查询功能 , 支持 DSS ( 分析型应用 ) 的需求 , 但是支持的不是很好 ;


效率低下 : DSS ( 分析型应用 ) 关注 模型 与 方法 , 没有 在数据库管理系统层面上 的支持 ; 每个应用都需要编写一个程序 , 几百上千次分析决策 , 就需要编写对应的应用程序 , 这样效率很低下 ;


数据仓库引入 : 如果有一个系统已经将上述 模型 与 方法 实现好 , 可以支持成千上万个应用 , 不用为每个单独的应用编写程序 ; 这里就引入了数据仓库 ;






三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因


事务处理环境 不适用于 分析型 ( DSS - Decision Support System 决策支持系统) 应用原因 :


事务性处理 与 分析型处理 性能特性不同

数据集成问题

数据动态集成问题

历史数据问题

数据的综合问题





四、事务性处理 与 分析型处理 性能特性不同


用户行为模式 :


事务型处理 : 数据存取频率高 , 每次操作要求时间短 ;

分析型处理 : DSS 运行时间长 , 消耗资源多 , 运行频率低 ;





五、数据集成问题


DSS 分析型应用需要的数据 :


DSS 数据 : 需要全面 , 集成 的数据 , 时间跨度很长 , 来源很多 , 企业内部数据 , 外部数据 , 竞争对手数据 ;

事务处理数据 : 只有当前业务部门数据 , 企业范围数据没有集成 , 需要额外开发程序收集这些数据集成起来 ; 数据是分散的 ;





六、数据集成问题 : 数据分散原因


数据分散原因 : ① 事务处理应用分散 , ② 蜘蛛网问题 , ③ 数据不一致问题 , ④ 外部数据 和 非结构化数据 ;



① 事务处理应用分散 : 应用本身就是分散的


应用独立 : 企业的 每个应用的 事务处理 都是相互独立的 ;


设计针对当前问题 : 设计系统时 , 每个系统只是针对当前问题而设计 , 如财务系统 , 只针对财务问题 , 客户管理系统 , 只针对客户管理问题 ;


不考虑后续问题 : 设计时 , 不考虑以后可能出现的新问题 ;



② 蜘蛛网问题 : 分析型应用中 , 需要抽取数据 , 那就涉及到各种数据抽取程序 , 不同的用户设计的抽取程序不同 , 导致 :


抽取数据的时间不同

抽取数据算法不同

抽取数据级别不同

参考的外部数据不同

结果导致针对相同的问题 , 不同的节点产生不同的分析结果 ;



③ 数据不一致问题 : 多个应用之间数据格式不一致 ;


数据库相同字段数据类型不同 , 如标识 ID , 有使用 Int 类型 , 有使用 String 类型的 ;

数据库相同字段数据名称不同 , 学生名称有使用 name 作为字段名称 , 有使用 studentName 作为字段名 ;

字段名称类型相同 , 含义不同 , name 作为学生名称 , 学校名称 等 ;


④ 外部数据 和 非结构化数据 : 使用爬虫爬下来的文本 , 图片 , 视频 等信息 , 结构形式各不相同 ;






七、数据集成问题 : 数据仓库引入


DSS 对数据集成需求迫切 :


工作繁杂 : 数据集成工作繁杂 , 如果全部由开发者实现 , 负担很大 ;

效率低下 : 如果每次分析都要集成一次 , 处理效率很低 ;

DSS ( Decision Support System ) 决策支持系统 对数据集成的需求 , 是数据仓库出现的最重要的原因 ;






八、数据动态集成问题


数据动态集成问题 :


静态集成 : 集成后 , 数据与数据源不再进行关联 ; 之后数据源改变 , 集成的数据不再变化 ;

动态集成 : 集成后 , 每隔一定周期 , 就要同步一次集成数据 ;





九、历史数据问题


历史数据问题 :


事务处理系统 : 数据库中 , 存储的都是当前数据 , 或 短期数据 ;


分析处理系统 : 数据仓库中 , 需要历史数据 ,






十、数据综合问题


DSS 决策支持系统 分析的对象 :


不分析 细节数据

分析前 先要对细节数据进行 不同程度的 综合


事务处理系统 分析的对象 :


主要处理 细节数据

不进行数据 综合 , 该系统下降综合作为数据冗余 , 限制综合 ;


目录
相关文章
|
4月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
5月前
|
存储 数据采集 NoSQL
什么是数据仓库?数据库与数据仓库有什么关系?
数据仓库与数据库有何区别?数据仓库主要用于存储历史数据,支持企业分析决策;而数据库则负责管理实时业务数据,保障日常运作。两者在数据来源、处理方式、存储结构等方面差异显著,但又相辅相成,共同助力企业高效管理数据、提升运营与决策能力。
|
9月前
|
Rust 物联网 数据处理
Rust +时序数据库 TDengine:打造高性能时序数据处理利器
TDengine 是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库,支持高并发写入、高效查询及流式计算,通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。 Rust 作为一门系统级编程语言,近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起,以其内存安全、高性能著称,与 TDengine 的高效特性天然契合,适合构建高可靠、高性能的数据处理系统。
346 2
|
存储 数据处理 Apache
超越传统数据库:揭秘Flink状态机制,让你的数据处理效率飞升!
【8月更文挑战第26天】Apache Flink 在流处理领域以其高效实时的数据处理能力脱颖而出,其核心特色之一便是状态管理机制。不同于传统数据库依靠持久化存储及 ACID 事务确保数据一致性和可靠性,Flink 利用内存中的状态管理和分布式数据流模型实现了低延迟处理。Flink 的状态分为键控状态与非键控状态,前者依据数据键值进行状态维护,适用于键值对数据处理;后者与算子实例关联,用于所有输入数据共享的状态场景。通过 checkpointing 机制,Flink 在保障状态一致性的同时,提供了更适合流处理场景的轻量级解决方案。
336 0
|
存储 安全 数据库
数据库的索引都有哪些类型?如何选择?
【8月更文挑战第17天】数据库的索引都有哪些类型?如何选择?
894 0
|
SQL 存储 关系型数据库
数据储存数据库管理系统(DBMS)
【10月更文挑战第11天】
657 3
|
存储 移动开发 数据库
HTML5 Web IndexedDB 数据库常用数据存储类型
IndexedDB 支持多种数据存储类型,满足复杂数据结构的存储需求。它包括基本数据类型(如 Number、String、Boolean、Date)、对象(简单和嵌套对象)、数组、Blob(用于二进制数据如图像和视频)、ArrayBuffer 和 Typed Arrays(处理二进制数据)、结构化克隆(支持 Map 和 Set 等复杂对象),以及 JSON 数据。尽管不直接支持非序列化数据(如函数和 DOM 节点),但可以通过转换实现存储。开发者应根据具体需求选择合适的数据类型,以优化性能和使用体验。
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
数据采集 DataWorks 安全
DataWorks产品使用合集之如何判断数据库类型是否支持整库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
165 2
|
缓存 NoSQL Redis
一天五道Java面试题----第九天(简述MySQL中索引类型对数据库的性能的影响--------->缓存雪崩、缓存穿透、缓存击穿)
这篇文章是关于Java面试中可能会遇到的五个问题,包括MySQL索引类型及其对数据库性能的影响、Redis的RDB和AOF持久化机制、Redis的过期键删除策略、Redis的单线程模型为何高效,以及缓存雪崩、缓存穿透和缓存击穿的概念及其解决方案。

热门文章

最新文章