【计算机三级数据库技术】第14章 数据仓库与数据挖掘-

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。

1 基本概念

数据仓库技术所解决的问题是如何更合理和更有效的组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低对企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。
数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识

2 决策支持系统(DSS)的发展

2.1 基本概念

    操作性数据是指由企业的基本业务系统所产生的数据,操作性数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境
使用DSS的目的是为了增加决策的有效性,而不是为了提高做出决策的效率

2.2 基于数据仓库的决策支持系统

    这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源
    存在两类数据
        原始数据
            一般来自于企业操作性系统,因此也可以称之为操作型数据
        导出数据
            为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用

3 数据仓库技术概述

3.1 数据仓库的概念和特性

    建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用
    四个特征
        主题性
        集成性
        不可更新性
        时间特性

3.2 数据仓库的体系结构和环境

    数据仓库的体系结构
        操作型数据
        操作型数据存储
        数据仓库
        数据集市
        个体层临时数据
    体系的功能
        数据处理
        数据管理
        数据应用

3.3 数据仓库的数据组织

    数据分级别
        早期细节级
        当前细节级
        轻度综合级
        高度综合级
    粒度
        一般将综合级别称为粒度,粒度越大、表示综合程度越高,粒度越小,综合程度越低
        粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询的数据类型
    数据分区
        数据分区问题是数据仓库的另一个重要问题,为了提高数据管理和查询的效率,分区是有效的办法
        分区的方式
            系统层分区
            应用层分区

3.4 元数据

    是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据
    描述存储操作型数据的关系数据库的结构、位置、表的结构、表间关系及各种视图等的数据都是元数据
    建立元数据的目的是主要在于让用户能更快地找到所需的数据,让前台工具和管理员更好地理解和管理数据
    分类
        技术型元数据
        业务型元数据

3.5 操作型数据存储

    目的:为了支持一些特殊的应用功能
        即时OLAP应用
        全局型OLTP应用
    在作为数据源的操作型系统与数据仓库之间存在着一个称为操作型数据存储的(ODS)的数据层
    分类
        ODS I第一类
            数据更新频率是秒级
        ODS II 第二类
            数据更新频率是小时级
        ODS III第三类
            数据更新频率是天级
        ODS IV第四类
            不仅仅包括来自操作型环境的数据,也包括由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果和一些报表信息

4 设计与建造数据仓库

4.1 数据仓库设计的需求与方法

    数据仓库的设计
        数据体系的设计
        应用体系的设计
    企业建立数据仓库的目的
        实现大量的以数据仓库各层数据为基础的基本信息处理功能
    设计方法
        数据仓库的设计过程是按照一定的题域分别设计
        数据仓库的设计过程是按逐个主题逐步建立的过程,那么就需要进行主题域选择
        数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境,建立企业的信息资源体系结构的数据核心,并在此基础上,建立基本的觉得支持分析应用

4.2 数据仓库的数据模型

    概念模型
        是用于描述客观世界中的对象及其属性的一种概念性工具
    逻辑模型
    物理模型

4.3 数据仓库设计步骤

    概念模型设计
    技术评估与环境准备工作
    逻辑模型设计
    物理模型设计
    数据生成与应用实现
    数据仓库运行与维护

5 数据仓库的运行与维护

5.1 数据仓库数据的更新维护

    维护的基本思路
        根据某种维护策略,在 一定条件下出发维护操作
        维护操作捕捉到数据源中的数据变化
        通过一定策略对数据仓库中的数据进行相应的更新操作
    维护策略
        实时维护
        延时维护
    捕捉数据源的变化的方法
        触发器
        修改数据源应用程序
        通过日志文件
        快照比较法
    导出数据的维护方法
        一是根据维护对象的数据源对齐进行重新计算
        二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护

5.2 数据仓库监控与元数据管理

    数据仓库监控
    元数据管理

6 联机分析处理(OLAP)与多维数据模型

6.1 基本概念

    OLAP主要用于支持复杂的分析操作,侧重对觉得人员和高层管理人员的决策支持
    数据的多维分析是针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次、采用各种数据分析技术、对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据

6.2 多维分析的基本操作

    钻取
    切片
    旋转

6.3 OLAP的实现方式

    MOLAP基于多维数据库的OLAP
    ROLAP基于关系数据库的OALP
    HOLAP混合型的OLAP

7 数据挖掘技术

7.1 数据挖掘的步骤

    数据准备
    数据挖掘
    结果解释评估

7.2 常见的数据挖掘任务

    分类
    估计
    预测
    相关性分组
    关联规则
    聚类
    描述
相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
存储 NoSQL 关系型数据库
非关系型数据库-MongoDB技术(二)
非关系型数据库-MongoDB技术(二)
|
1月前
|
NoSQL 关系型数据库 MongoDB
非关系型数据库-MongoDB技术(一)
非关系型数据库-MongoDB技术(一)
|
2天前
|
存储 缓存 监控
数据库优化技术:提升性能与效率的关键策略
【10月更文挑战第15天】数据库优化技术:提升性能与效率的关键策略
23 8
|
14天前
|
关系型数据库 分布式数据库 数据库
PolarDB 开源:推动数据库技术新变革
在数字化时代,数据成为核心资产,数据库的性能和可靠性至关重要。阿里云的PolarDB作为新一代云原生数据库,凭借卓越性能和创新技术脱颖而出。其开源不仅让开发者深入了解内部架构,还促进了数据库生态共建,提升了稳定性与可靠性。PolarDB采用云原生架构,支持快速弹性扩展和高并发访问,具备强大的事务处理能力及数据一致性保证,并且与多种应用无缝兼容。开源PolarDB为国内数据库产业注入新活力,打破国外垄断,推动国产数据库崛起,降低企业成本与风险。未来,PolarDB将在生态建设中持续壮大,助力企业数字化转型。
56 2
|
19天前
|
SQL 存储 人工智能
OceanBase CTO杨传辉谈AI时代下数据库技术的创新演进路径!
在「DATA+AI」见解论坛上,OceanBase CTO杨传辉先生分享了AI与数据库技术融合的最新进展。他探讨了AI如何助力数据库技术演进,并介绍了OceanBase一体化数据库的创新。OceanBase通过单机分布式一体化架构,实现了从小规模到大规模的无缝扩展,具备高可用性和高效的数据处理能力。此外,OceanBase还实现了交易处理、分析和AI的一体化,大幅提升了系统的灵活性和性能。杨传辉强调,OceanBase的目标是成为一套能满足80%工作负载需求的系统,推动AI技术在各行各业的广泛应用。关注我们,深入了解AI与大数据的未来!
|
27天前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
65 4
|
19天前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
2月前
|
SQL Java 关系型数据库
探索Java数据库连接的奥秘:JDBC技术全攻略
探索Java数据库连接的奥秘:JDBC技术全攻略
52 8
|
2月前
|
存储 缓存 负载均衡
【PolarDB-X 技术揭秘】Lizard B+tree:揭秘分布式数据库索引优化的终极奥秘!
【8月更文挑战第25天】PolarDB-X是阿里云的一款分布式数据库产品,其核心组件Lizard B+tree针对分布式环境优化,解决了传统B+tree面临的数据分片与跨节点查询等问题。Lizard B+tree通过一致性哈希实现数据分片,确保分布式一致性;智能分区实现了负载均衡;高效的搜索算法与缓存机制降低了查询延迟;副本机制确保了系统的高可用性。此外,PolarDB-X通过自适应分支因子、缓存优化、异步写入、数据压缩和智能分片等策略进一步提升了Lizard B+tree的性能,使其能够在分布式环境下提供高性能的索引服务。这些优化不仅提高了查询速度,还确保了系统的稳定性和可靠性。
75 5

热门文章

最新文章