开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下):数据仓库】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1041/detail/15662
数据仓库
内容介绍:
一、课程概述
二、传统数据仓库的基本概念
三、数据仓库及相关的技术发展
四、数据仓库的数据模型
五、数据的 ETL
六、本章小结
一、课程概述
数据仓库与数据挖掘这门课程当中的数据仓库的技术,这一章节主要分为以下几个部分为大家讲解,第一小节是传统数据仓库的基本概念.主要包括传统数据仓库的内容,数据集市以及元数据。
第二小节是数据仓库与相关技术发展,主要包括从数据库到数据仓库、动态数据仓库、海量数据仓库、数据中台以及数据仓库方法论这五个方面。
第三小节是数据仓库的数据模型,主要包括以下三个方面,概念模型、逻辑模型、物理模型。
第四小节是数据的ETL,主要包括数据抽取、数据转换和数据加载这三个方面。
第五小节是数据整理,主要包括数据整理的特征与数据整理的任务这两个部分。最后一小节是对本章节的整理小结。
二、传统数据仓库的基本概念
传统的数据仓库由数据仓库、数据库数据的抽取、转换、加载元数据访问、数据访问工具、数据集市、数据仓库管理和信息发布系统这七个部分组成,首先来讲一下数据仓库数据库,它是整个数据仓库环境的核心,是存放数据的地方,提供对数据的检索支持,相对于我们传统的事务型数据库来说,它主要的特点是对大数据量数据的支持和快速检索技术,
第二个部分是数据的抽取转换和加载,主要是把数据从各种各样的存储方式中抽取出来,进行必要的转换和整理,存放到数据库数据仓库当中,主要是删除对决策支持没有意义的数据段,转换为统一的数据名称和定义,计算、统计和衍生数据,然后给缺失的数据赋予缺省值,统一不同的数据定义和方式。元数据的部分主要是他描述的是数据仓库,当中的数据库是数据仓库运行和维护的中心,数据仓库服务器利用元数据来存储和更新数据,用户可以通过元数据来了解和访问数据。
访问工具主要是用户访问数据仓库提供的工具,例如数据查询和报表应用开发、管理信息系统、联机分析处理、数据挖掘等技术。数据提示是在数据仓库的实施过程中,将数据仓库划分为多个数据集,是同一个部门的数据集市,着手以后,再将几个数据集市组合成一个完整的数据仓库,有助于数据仓库的负载均衡,保证应用效率。数据仓库管理方面主要是进行安全和特权管理,跟踪数据的更新、数据质量的检查管理和更新,元数据审计和报告数据仓库的使用状态等。
信息发布系统把数据仓库中的数据和其他相关的数据发送给不同的地点和用户,这里主要是基于web的信息发布系统,能够有效地对多用户进行访问。
主要集中来给大家讲一下数据集市。在数据提示方面,数据提示是为了特定的应用目的和应用范围,面向企业的某个部门或者某个主题,在逻辑和物理上划分出来的数据仓库的数据子集,也可以称为是部门数据或者主题数据。整个数据仓库是面向的是整个企业的分析和应用。这个数据仓库都保存了大量的历史数据,但是在实际应用中,不同的部门不可能全部都使用这些数据,用户可以使用其中一部分数据,顾及到应用的处理速率和执行效率,可以分离出这部分数据构建数据集市。
但是在数据集当中,数据统一来自于数据仓库,用户无需遍历整个数据仓库的海量数据进行查询,而只是在与本部门相关的局部的数据集上进行操作。在实施不同的数据集时需要保证同一含义的字段定义务必要相同,才能在后续实施数据仓库时避免麻烦。
元数据主要是描述数据的数据全面刻画数据的内容结构获取访问方法等,为了更有效地使用数据元数据,提供了一个信息目录,支持信息检索、软件配置,不同系统之间的数据交互,在数据仓库系统中,元数据描述数据仓库中的数据结构和构建方式可以帮助数据仓库管理员或者是数据仓库开发人员方便地找到所有的所需的数据,元数据的分类标准有多种,主要是元数据的领域相关性、应用场合、具体内容、具体用途等。
第三个方面是与模型相关的元数据,这方面主要是描述信息和元数据建模过程中的数据,都可以进一步分为横向模型和纵向模型,当不同的信息模型之间进行互通时,需要模型中各层的关联描述横向模型关联元数据,就是综合现在有了两个或当不同层采用不同模型,上层是下层的结构描述时,上下层之间对应的关联,纵向模型关联元数据就是关联模型信息曾与原数据层之间的元数据。
第四个方面就是其他的元数据,就是例如系统硬件、软件描述和系统配置描述等。关于元数据的应用场合,这里分为以下两个两个场合,第一个是数据源数据,它又称为信息系统元数据,信息系统使用元数据描述,信息员已按照用户要求检索、存取和理解原信息,保证在新的应用环境中使用信息,支持整个信息结构的演进。
第二个方面就是过程元数据。又称为软件结构元数据,是关于应用系统的信息,能够帮助用户查找、评估、存取和管理数据。在具体内容方面,元数据主要有内容、结构、表达和文法这四个方面。
元数据的内容主要是识别、定义、描述基本数据元素,包括数据单元、合法值域等,元数据的结构是在相关范围内定义数据元素的逻辑概念集合,元数据的表达主要是描述每个值域的物理理解以及元数据元素集合的物理存储结构,元数据的文法主要是提供基础数据的属性评估,包括所有与基础数据的收集、处理和使用相关的信息。
最后一个方面就是元数据的具体用途,它主要分为技术元数据和业务员数据这两个方面。技术元数据是用来存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,保证数据仓库系统的正常运行。而业务员数据是从业务角度描述数据仓库中的数据,主要是提供介于使用者和实际系统之间的语义层,帮助数据仓库使用人员理解数据仓库中的数据。
三、数据仓库及相关的技术发展
第一个我们主要是讲从数据库到数据仓库当数据纷繁多样的时候数据就会产生拥堵,数据拥堵的时候就会有一部分的数据没有办法满足用户的需求,这时候就产生了数据库,但是当产生数据库的时候,就产生了数据仓库来解决这个问题,传统数据仓库的优点主要是分为可以通过完善数据的信息转换保证obs数据的准确性和一致性,通过数据仓库技术提升业务智能系统的性能,通过多维分析展现工具给客户提供更全面的多维分析、报表统计和实时查询等功能,然后通过数据挖掘技术可以帮助客户灵活地进行预测分析,
但是传统的数据数据仓库演员的以下几个方面问题,主要是企业需要对市场变化进行实时响应,对数据仓库时效性的要求也越来越高。然而现在传统的数据仓库中的数据都是经过批量的、定期更新的,难以满足时效性的需求。
第二个方面就是越来越多的一线用户需要使用数据仓库,而传统的数据仓库的用户主要是通常针对于高端管理层和少数管理人员。更多的一线用户无法访问数据仓库,这样就会对用户产生一定的限制。
第三个方面就是业务系统越来越需要传统数据仓库主动推送相应的分析能力,而传统的数据仓库通常不会主动推送他们的分析能力。
鉴于传统数据仓库的缺点,企业开始使用动态数据仓库来解决上述的问题。
动态数据仓库就像图中表示的一样,它分为数据源层,然后数据仓库的建立,数据仓库的分析,然后分析功能和用户这几个方面。
动态的数据仓库存有以下几个方面的优点,那一线用户可以动态实时的访问数据仓库,以获取所需的信息,使用动态数据加载方式相比传统的数据仓库采用批量形式的加载数据,动态数据仓库通常以实时的方式连续加载数据,最低可以达到秒级的时间间隔,从根本上保证数据仓库的实时性,然后采用事件驱动和主动推送的方式为业务系统提供分析能力,
在针对现在海量的数据的情况下,我们形成了一个海量数据仓库,通过构建海量数据仓库可以在各行各业实施智慧的分析洞察,比如在交通行业进行实时的交通流,公交路线的优化基于交通流预测出行推荐路线等,这样就是海量数据仓库为我们提供了便利条件,
为了支持大数据时代的服务型系统建设,我们需要部署大数据中台,然后这个数据中台可以实现数据的统一存储、统一管理、统一安全、统一模型和统一数据服务。从技术的角度来看,数据中台是一套成熟的数据存储、数据管理和数据服务的软件包和管理机制,可以帮助企业持续不断地将数据变为资产,并服务于前方业务。
数据中台有以下几个方面的特点,第一个方面就是构建符合数据技术时代的创新灵活的大中台、小前台的业务机制,第二个方面是对于比较复杂的综合性系统来说,可以在数据中台的基础上搭建业务中台,中小型企业和政府就不需要构建更多的业务中台。第三个方面就是大数据中台构建,需要选择成熟的基础架构和实施团队。第四个方面就是采用渐进式的实施策略,最后一个方面就是分析实施大数据动态,可以尝试指定三到五年的长期发展战略。
最后一个方面就是数据仓库的方法论,我们分为以下两个部分构建数据仓库拼搏模型,就是从底向上这个方面来构建数据仓库,是从联机事务处理数据源到数据集到数据集市,再到数据仓库的一种快速的开发方式。
樱木模式是从顶向下构建数据仓库,首先构建满足绝大多数需求的数据仓库,然后再尝试构建满足不同业务预期的数据库表,并从各个数据源将数据通过ETL装改进数据仓库当中。就形成一个自顶向下的数据仓库。