数据挖掘——数据仓库

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多。 数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。

56309f00d7d9a5ca6c97d4903fe010c1503cba36

虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多


数据仓库主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。


数据仓库是一个集成的,面向主题的数据库集合,用于实现决策支持功能(DSF),其中的每个数据单元都和某个时刻相关。


根据这个定义,数据仓库也可看成是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据,来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新,仅用于相应终端用户的查询。一般来说,数据仓库非常的大,存储了数以亿计的记录。


要更好的理解数据仓库的设计过程最重要的是两个方面:

   第一是数据仓库中存储的数据的特定类型(分类);

   第二是对数据进行什么转换才能使数据变成有利于决策的最终形式。


数据仓库包括一下数据类别,这个分类适用于依赖时间的数据源。

  1、过去细节数据

  2、当前(新)细节数据

  3、轻度综合数据

  4、高度综合数据

  5、元数据(数据目录或者向导)


为了在数据仓库中准备这5种基本数据或者导出数据,数据转换的基本类型已经标准化。有以下4中主要转换形式,每一种转换形式都有自己的特点:


  第一种 简单转换—— 这种转换是所有其他复杂类型转换的基石。这种类型的转换包括一次只操作一个字段中的数据,而不考虑相关字段的值。

 

  第二种 清洁和净化——这种转换确保一个字段或一组相关的字段采用一致的格式和用法。


  第三种 集成——这个过程从一个或者多个数据源中提取操作类型数据,并逐个字段地把它们映射到数据仓库中的新数据结构上。在构建数据仓库时,常见的标识符问题是最难的继承问题之一。当同一个实体有多个系统源,但无法将这些实体区分开时,就会出现这种情况。


  第四种 聚合和总结——这个方法将操作环境中的数据实例浓缩成数据仓库环境中更少的实例。总结是一维或者多维数据值的简单相加。聚合指的是不同商业元素相加得到一个总计,它高度依赖于域。


 这些转换是把数据仓库作为数据挖掘过程的数据源的主要原因。如果数据仓库可用,数据挖掘的预处理阶段就可以极大地简化,有时候甚至可以去掉。数据准备是最耗时间的阶段。


数据仓库的开发过程可概括为3个阶段:

   1、建模——简单地说,就是花时间了解商业过程,这些过程的信息需求以及在这些过程中做出的当前的决策。

  

   2、构建——确定对工具的需求,该工具符合目标商业过程所需的决策支持类型;创建一个有助于进一步定义信息需求的数据模型;把问题分解为数据规范和实际的数据存储库,数据存储最终会表示为数据集市或者更加全面的数据仓库。


  3、部署—— 用户研究存储库(了解可用的和应当可用的数据)和实际数据仓库的早期版本。这会使数据仓库出现演化,包括增加更多的数据扩充历史周期或重新回到构建阶段,以方便通过数据模型来扩展数据仓库的范围。


  数据仓库的唯一功能是向终端用户提供信息已作出决策。数据仓库也允许终端用户提取隐藏的,重要的信息。这种信息虽然更加难以提取,但能提供更大的商业和科学利益。


  与其他典型的数据仓库应用(如结构化查询语言SQL)和联机分析处理工具(OLAP)的不同

       SQL:一种标准的关系数据库语言,善于进行在数据库数据上强加一些约束条件以获取答案;

       数据挖掘:进行另外一种本质上的探测性分析:获取隐藏的,不那么明显的信息。

      OLAP:是决策支持的一部分。他回答了为什么某些事情是正确的。用户可以建立一个关联假设,二队数据执行一系列查询来验证该假设。OLAP分析实际上是一个推导过程。OLAP工具不依赖与数据,也不创造新的知识。它们通常是根据图形化浓缩的数据,帮助终端用用户做出结论和决策的。具有专门用途的可视化工具。









相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
319 0
|
18天前
|
存储 监控 数据挖掘
【计算机三级数据库技术】第14章 数据仓库与数据挖掘-
文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。
19 3
|
21天前
|
机器学习/深度学习 分布式计算 数据挖掘
数据仓库与数据挖掘技术的结合应用
【7月更文挑战第30天】数据仓库与数据挖掘技术的结合应用是现代企业实现高效决策和精准分析的重要手段。通过整合高质量的数据资源,利用先进的数据挖掘技术,企业可以更好地理解市场、客户和业务,从而制定科学的决策和战略。未来,随着技术的不断进步和应用场景的不断拓展,数据仓库与数据挖掘技术的结合应用将会为企业的发展提供更多机遇和挑战。
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据仓库和数据挖掘基础
数据仓库和数据挖掘基础
31 1
|
3月前
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
98 3
|
10月前
|
存储 数据挖掘 OLAP
数据挖掘(7.1)--数据仓库
数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。
55 0
|
运维 安全 算法
数据仓库与数据挖掘(3)|学习笔记
快速学习数据仓库与数据挖掘(3)
110 0
数据仓库与数据挖掘(3)|学习笔记
|
监控 数据可视化 搜索推荐
数据仓库与数据挖掘(2)|学习笔记(二)
快速学习数据仓库与数据挖掘(2)
157 0
数据仓库与数据挖掘(2)|学习笔记(二)
|
机器学习/深度学习 传感器 自然语言处理
数据仓库与数据挖掘(2)|学习笔记(一)
快速学习数据仓库与数据挖掘(2)
90 0
数据仓库与数据挖掘(2)|学习笔记(一)
|
数据挖掘 大数据 数据处理
数据仓库与数据挖掘(1)|学习笔记
快速学习数据仓库与数据挖掘(1)
112 0
数据仓库与数据挖掘(1)|学习笔记

热门文章

最新文章