【计算机三级数据库技术】第14章 数据仓库与数据挖掘-

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。

1 基本概念

数据仓库技术所解决的问题是如何更合理和更有效的组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低对企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。
数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识

2 决策支持系统(DSS)的发展

2.1 基本概念

    操作性数据是指由企业的基本业务系统所产生的数据,操作性数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境
使用DSS的目的是为了增加决策的有效性,而不是为了提高做出决策的效率

2.2 基于数据仓库的决策支持系统

    这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源
    存在两类数据
        原始数据
            一般来自于企业操作性系统,因此也可以称之为操作型数据
        导出数据
            为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用

3 数据仓库技术概述

3.1 数据仓库的概念和特性

    建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用
    四个特征
        主题性
        集成性
        不可更新性
        时间特性

3.2 数据仓库的体系结构和环境

    数据仓库的体系结构
        操作型数据
        操作型数据存储
        数据仓库
        数据集市
        个体层临时数据
    体系的功能
        数据处理
        数据管理
        数据应用

3.3 数据仓库的数据组织

    数据分级别
        早期细节级
        当前细节级
        轻度综合级
        高度综合级
    粒度
        一般将综合级别称为粒度,粒度越大、表示综合程度越高,粒度越小,综合程度越低
        粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询的数据类型
    数据分区
        数据分区问题是数据仓库的另一个重要问题,为了提高数据管理和查询的效率,分区是有效的办法
        分区的方式
            系统层分区
            应用层分区

3.4 元数据

    是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据
    描述存储操作型数据的关系数据库的结构、位置、表的结构、表间关系及各种视图等的数据都是元数据
    建立元数据的目的是主要在于让用户能更快地找到所需的数据,让前台工具和管理员更好地理解和管理数据
    分类
        技术型元数据
        业务型元数据

3.5 操作型数据存储

    目的:为了支持一些特殊的应用功能
        即时OLAP应用
        全局型OLTP应用
    在作为数据源的操作型系统与数据仓库之间存在着一个称为操作型数据存储的(ODS)的数据层
    分类
        ODS I第一类
            数据更新频率是秒级
        ODS II 第二类
            数据更新频率是小时级
        ODS III第三类
            数据更新频率是天级
        ODS IV第四类
            不仅仅包括来自操作型环境的数据,也包括由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果和一些报表信息

4 设计与建造数据仓库

4.1 数据仓库设计的需求与方法

    数据仓库的设计
        数据体系的设计
        应用体系的设计
    企业建立数据仓库的目的
        实现大量的以数据仓库各层数据为基础的基本信息处理功能
    设计方法
        数据仓库的设计过程是按照一定的题域分别设计
        数据仓库的设计过程是按逐个主题逐步建立的过程,那么就需要进行主题域选择
        数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境,建立企业的信息资源体系结构的数据核心,并在此基础上,建立基本的觉得支持分析应用

4.2 数据仓库的数据模型

    概念模型
        是用于描述客观世界中的对象及其属性的一种概念性工具
    逻辑模型
    物理模型

4.3 数据仓库设计步骤

    概念模型设计
    技术评估与环境准备工作
    逻辑模型设计
    物理模型设计
    数据生成与应用实现
    数据仓库运行与维护

5 数据仓库的运行与维护

5.1 数据仓库数据的更新维护

    维护的基本思路
        根据某种维护策略,在 一定条件下出发维护操作
        维护操作捕捉到数据源中的数据变化
        通过一定策略对数据仓库中的数据进行相应的更新操作
    维护策略
        实时维护
        延时维护
    捕捉数据源的变化的方法
        触发器
        修改数据源应用程序
        通过日志文件
        快照比较法
    导出数据的维护方法
        一是根据维护对象的数据源对齐进行重新计算
        二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护

5.2 数据仓库监控与元数据管理

    数据仓库监控
    元数据管理

6 联机分析处理(OLAP)与多维数据模型

6.1 基本概念

    OLAP主要用于支持复杂的分析操作,侧重对觉得人员和高层管理人员的决策支持
    数据的多维分析是针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次、采用各种数据分析技术、对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据

6.2 多维分析的基本操作

    钻取
    切片
    旋转

6.3 OLAP的实现方式

    MOLAP基于多维数据库的OLAP
    ROLAP基于关系数据库的OALP
    HOLAP混合型的OLAP

7 数据挖掘技术

7.1 数据挖掘的步骤

    数据准备
    数据挖掘
    结果解释评估

7.2 常见的数据挖掘任务

    分类
    估计
    预测
    相关性分组
    关联规则
    聚类
    描述
相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
30天前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
|
6月前
|
存储 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:单机性能优化篇
阿里云PolarDB云原生数据库在TPC-C基准测试中,以20.55亿tpmC的成绩打破性能与性价比世界纪录。此外,国产轻量版PolarDB已上线,提供更具性价比的选择。
|
5月前
|
存储 关系型数据库 分布式数据库
|
6月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
5月前
|
存储 关系型数据库 分布式数据库
|
3月前
|
存储 人工智能 关系型数据库
诚邀您参加《智启云存:AI时代数据库RDS存储新突破》线上闭门技术沙龙!
诚邀您参加6月11日(周三)14:00在线上举行的《智启云存:AI时代数据库RDS存储新突破》闭门活动。免费报名并有机会获得精美礼品,快来报名吧:https://hd.aliyun.com/form/6162
|
4月前
|
人工智能 关系型数据库 分布式数据库
媒体声音|从亚太到欧美,阿里云瑶池数据库凭何成为中企出海的技术底气?
在中企出海的时代浪潮中,瑶池数据库正凭借其技术创新、场景化解决方案、智能化能力、全球化布局,成为企业跨越挑战、构建全球竞争力的关键伙伴;同时也以硬核的技术实力证明了中国数据库的国际竞争力。
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
4月前
|
安全 Apache 数据库
【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!
5月24日,NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域,邀请行业专家分享技术趋势、产品实践及解决方案,助力企业构建高效安全的数据管理体系。时间:14:00-17:30;地点:深圳新一代产业园2栋20楼会议室。线下名额有限(80人),速报名参与深度交流!
102 1

热门文章

最新文章