【计算机三级数据库技术】第14章 数据仓库与数据挖掘-

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。

1 基本概念

数据仓库技术所解决的问题是如何更合理和更有效的组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低对企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。
数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识

2 决策支持系统(DSS)的发展

2.1 基本概念

    操作性数据是指由企业的基本业务系统所产生的数据,操作性数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境
使用DSS的目的是为了增加决策的有效性,而不是为了提高做出决策的效率

2.2 基于数据仓库的决策支持系统

    这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源
    存在两类数据
        原始数据
            一般来自于企业操作性系统,因此也可以称之为操作型数据
        导出数据
            为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用

3 数据仓库技术概述

3.1 数据仓库的概念和特性

    建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用
    四个特征
        主题性
        集成性
        不可更新性
        时间特性

3.2 数据仓库的体系结构和环境

    数据仓库的体系结构
        操作型数据
        操作型数据存储
        数据仓库
        数据集市
        个体层临时数据
    体系的功能
        数据处理
        数据管理
        数据应用

3.3 数据仓库的数据组织

    数据分级别
        早期细节级
        当前细节级
        轻度综合级
        高度综合级
    粒度
        一般将综合级别称为粒度,粒度越大、表示综合程度越高,粒度越小,综合程度越低
        粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询的数据类型
    数据分区
        数据分区问题是数据仓库的另一个重要问题,为了提高数据管理和查询的效率,分区是有效的办法
        分区的方式
            系统层分区
            应用层分区

3.4 元数据

    是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据
    描述存储操作型数据的关系数据库的结构、位置、表的结构、表间关系及各种视图等的数据都是元数据
    建立元数据的目的是主要在于让用户能更快地找到所需的数据,让前台工具和管理员更好地理解和管理数据
    分类
        技术型元数据
        业务型元数据

3.5 操作型数据存储

    目的:为了支持一些特殊的应用功能
        即时OLAP应用
        全局型OLTP应用
    在作为数据源的操作型系统与数据仓库之间存在着一个称为操作型数据存储的(ODS)的数据层
    分类
        ODS I第一类
            数据更新频率是秒级
        ODS II 第二类
            数据更新频率是小时级
        ODS III第三类
            数据更新频率是天级
        ODS IV第四类
            不仅仅包括来自操作型环境的数据,也包括由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果和一些报表信息

4 设计与建造数据仓库

4.1 数据仓库设计的需求与方法

    数据仓库的设计
        数据体系的设计
        应用体系的设计
    企业建立数据仓库的目的
        实现大量的以数据仓库各层数据为基础的基本信息处理功能
    设计方法
        数据仓库的设计过程是按照一定的题域分别设计
        数据仓库的设计过程是按逐个主题逐步建立的过程,那么就需要进行主题域选择
        数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境,建立企业的信息资源体系结构的数据核心,并在此基础上,建立基本的觉得支持分析应用

4.2 数据仓库的数据模型

    概念模型
        是用于描述客观世界中的对象及其属性的一种概念性工具
    逻辑模型
    物理模型

4.3 数据仓库设计步骤

    概念模型设计
    技术评估与环境准备工作
    逻辑模型设计
    物理模型设计
    数据生成与应用实现
    数据仓库运行与维护

5 数据仓库的运行与维护

5.1 数据仓库数据的更新维护

    维护的基本思路
        根据某种维护策略,在 一定条件下出发维护操作
        维护操作捕捉到数据源中的数据变化
        通过一定策略对数据仓库中的数据进行相应的更新操作
    维护策略
        实时维护
        延时维护
    捕捉数据源的变化的方法
        触发器
        修改数据源应用程序
        通过日志文件
        快照比较法
    导出数据的维护方法
        一是根据维护对象的数据源对齐进行重新计算
        二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护

5.2 数据仓库监控与元数据管理

    数据仓库监控
    元数据管理

6 联机分析处理(OLAP)与多维数据模型

6.1 基本概念

    OLAP主要用于支持复杂的分析操作,侧重对觉得人员和高层管理人员的决策支持
    数据的多维分析是针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次、采用各种数据分析技术、对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据

6.2 多维分析的基本操作

    钻取
    切片
    旋转

6.3 OLAP的实现方式

    MOLAP基于多维数据库的OLAP
    ROLAP基于关系数据库的OALP
    HOLAP混合型的OLAP

7 数据挖掘技术

7.1 数据挖掘的步骤

    数据准备
    数据挖掘
    结果解释评估

7.2 常见的数据挖掘任务

    分类
    估计
    预测
    相关性分组
    关联规则
    聚类
    描述
相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
20天前
|
Java 关系型数据库 MySQL
"解锁Java Web传奇之旅:从JDK1.8到Tomcat,再到MariaDB,一场跨越数据库的冒险安装盛宴,挑战你的技术极限!"
【8月更文挑战第19天】在Linux上搭建Java Web应用环境,需安装JDK 1.8、Tomcat及MariaDB。本指南详述了使用apt-get安装OpenJDK 1.8的方法,并验证其版本。接着下载与解压Tomcat至`/usr/local/`目录,并启动服务。最后,通过apt-get安装MariaDB,设置基本安全配置。完成这些步骤后,即可验证各组件的状态,为部署Java Web应用打下基础。
33 1
|
8天前
|
SQL Java 关系型数据库
探索Java数据库连接的奥秘:JDBC技术全攻略
探索Java数据库连接的奥秘:JDBC技术全攻略
33 8
|
14天前
|
存储 缓存 负载均衡
【PolarDB-X 技术揭秘】Lizard B+tree:揭秘分布式数据库索引优化的终极奥秘!
【8月更文挑战第25天】PolarDB-X是阿里云的一款分布式数据库产品,其核心组件Lizard B+tree针对分布式环境优化,解决了传统B+tree面临的数据分片与跨节点查询等问题。Lizard B+tree通过一致性哈希实现数据分片,确保分布式一致性;智能分区实现了负载均衡;高效的搜索算法与缓存机制降低了查询延迟;副本机制确保了系统的高可用性。此外,PolarDB-X通过自适应分支因子、缓存优化、异步写入、数据压缩和智能分片等策略进一步提升了Lizard B+tree的性能,使其能够在分布式环境下提供高性能的索引服务。这些优化不仅提高了查询速度,还确保了系统的稳定性和可靠性。
39 5
|
15天前
|
Cloud Native 数据库 开发者
云原生数据库2.0问题之帮助阿里云数据库加速技术更新如何解决
云原生数据库2.0问题之帮助阿里云数据库加速技术更新如何解决
|
15天前
|
Cloud Native 关系型数据库 分布式数据库
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
|
17天前
|
关系型数据库 OLAP 分布式数据库
揭秘Polardb与OceanBase:从OLTP到OLAP,你的业务选对数据库了吗?热点技术对比,激发你的选择好奇心!
【8月更文挑战第22天】在数据库领域,阿里巴巴的Polardb与OceanBase各具特色。Polardb采用共享存储架构,分离计算与存储,适配高并发OLTP场景,如电商交易;OceanBase利用灵活的分布式架构,优化数据分布与处理,擅长OLAP分析及大规模数据管理。选择时需考量业务特性——Polardb适合事务密集型应用,而OceanBase则为数据分析提供强大支持。
47 2
|
2天前
|
关系型数据库 Java MySQL
"解锁Java Web传奇之旅:从JDK1.8到Tomcat,再到MariaDB,一场跨越数据库的冒险安装盛宴,挑战你的技术极限!"
【9月更文挑战第6天】在Linux环境下安装JDK 1.8、Tomcat和MariaDB是搭建Java Web应用的关键步骤。本文详细介绍了使用apt-get安装OpenJDK 1.8、下载并配置Tomcat,以及安装和安全设置MariaDB(MySQL的开源分支)的方法。通过这些步骤,您可以快速构建一个稳定、高效的开发和部署环境,并验证各组件是否正确安装和运行。这为您的Java Web应用提供了一个坚实的基础。
12 0
|
4天前
|
SQL 安全 数据库
基于SQL Server事务日志的数据库恢复技术及实战代码详解
基于事务日志的数据库恢复技术是SQL Server中一个非常强大的功能,它能够帮助数据库管理员在数据丢失或损坏的情况下,有效地恢复数据。通过定期备份数据库和事务日志,并在需要时按照正确的步骤恢复,可以最大限度地减少数据丢失的风险。需要注意的是,恢复数据是一个需要谨慎操作的过程,建议在执行恢复操作之前,详细了解相关的操作步骤和注意事项,以确保数据的安全和完整。
11 0
|
8天前
|
C# UED 定位技术
WPF控件大全:初学者必读,掌握控件使用技巧,让你的应用程序更上一层楼!
【8月更文挑战第31天】在WPF应用程序开发中,控件是实现用户界面交互的关键元素。WPF提供了丰富的控件库,包括基础控件(如`Button`、`TextBox`)、布局控件(如`StackPanel`、`Grid`)、数据绑定控件(如`ListBox`、`DataGrid`)等。本文将介绍这些控件的基本分类及使用技巧,并通过示例代码展示如何在项目中应用。合理选择控件并利用布局控件和数据绑定功能,可以提升用户体验和程序性能。
20 0

热门文章

最新文章

下一篇
DDNS