开发者社区> python人工智能命理> 正文

[雪峰磁针石博客]数据仓库快速入门教程1简介

简介: 数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据。它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程。 决策支持数据库(数据仓库)与组织的运营数据库分开维护。
+关注继续查看

数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据。
它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程。

决策支持数据库(数据仓库)与组织的运营数据库分开维护。 但是数据仓库不是产品,而是环境。 它是属于信息系统,向用户传统运营数据存储难以访问或展示的当前和历史决策支持信息。

数据仓库是BI系统的核心,BI是为数据分析和报告而构建的。

你们很多人都知道,3NF设计的库存系统数据库很多都有相互关联的表。 例如,有关当前库存信息的报告可包含超过12个连接条件,查询慢。 数据仓库提供了一种新设计,可以缩短响应时间,提高报表和分析查询的性能。

数据仓库系统的其他名称:

  • 决策支持系统(DSS Decision Support System)
  • 执行信息系统(Executive Information System)
  • 管理信息系统(Management Information System)
  • 商业智能解决方案(Management Information System)
  • 分析应用(Analytic Application)
  • 数据仓库(Data Warehouse)

图片.png

数据仓库的历史

数据仓库使用户能够理解并提高其组织的绩效。 随着计算机系统变得越来越复杂并需要处理越来越多的信息,仓库数据的需求也在不断变化。

  • 1960年 - Dartmouth和General Mills在一个联合研究项目中,提出了维度概念。
  • 1970 - Nielsen和IR为零售引入了维度数据。
  • 1983- Tera推出了专为决策支持而设计的数据库管理系统
  • 数据仓库始于20世纪80年代后期,当时IBM工作人员Paul Murphy和Barry Devlin开发了业务数据仓库。
  • 然而,真正的概念是由Inmon Bill提出的。 他是数据仓库之父。 他撰写了关于仓库和公司信息工厂的建设,使用和维护的各种主题。

Datawarehouse如何运作?

数据仓库作为中央存储库,信息从一个或多个数据源到达。 数据从事务系统和其他关系数据库流入数据仓库。

数据可能是:

  1. 结构化的
  2. 半结构化
  3. 非结构化数据

处理,转换和提取数据,以便用户可以通过商业智能工具,SQL客户端和电子表格访问数据仓库中的已处理数据。 数据仓库将来自不同来源的信息合并到综合数据库中。

通过合并所有这些信息,组织可以更全面地分析其客户。 这有助于确保它已考虑所有可用信息。 数据仓库使数据挖掘成为可能。 数据挖掘旨在寻找可能导致更高销售额和利润的数据模式。

数据仓库的类型

1.企业数据仓库:

企业数据仓库是一个集中式仓库。 它为整个企业提供决策支持服务。 它提供了统一的方法来组织和表示数据。 它还提供根据主题对数据进行分类并根据这些划分进行访问的能力。

2.运营数据存储:

只需要数据存储的运营数据存储(也称为ODS)。 在ODS中,数据仓库实时刷新。 因此,它广泛地用于诸如存储雇员记录等。

3.数据集市:

数据集市是数据仓库的子集。 它专门针对特定业务部门而设计,例如销售,财务,销售或财务。 在独立的数据集市中,数据可以直接从源收集。

数据仓库的一般阶段

离线操作数据库:

在此阶段,数据只是从运营系统复制到服务器。

离线数据仓库:

数据仓库中的数据定期从运营数据库更新。 数据仓库中的数据经过映射和转换,以满足数据仓库的目标。

实时数据仓库:

运营数据库中发生任何事务,就会更新数据仓库。 例如,航空公司或铁路预订系统。

集成数据仓库:

运营系统执行事务时,数据仓库会不断更新。 然后,Datawarehouse生成传递回运营系统的事务。

数据仓库的组件

数据仓库的四个组成部分是:

加载管理器:加载管理器也称为前端组件。 它执行与提取和加载数据到仓库相关的所有操作。 这些操作包括转换准备用于进入数据仓库的数据。

仓库管理:仓库管理执行与仓库中数据管理相关的操作。 它执行数据分析等操作,以确保一致性,索引和视图的创建,非规范化和聚合的生成,源数据的转换和合并以及归档和备份数据。

查询管理器:查询管理器 也被称为后端组件。 它执行与用户查询管理相关的所有操作操作。 此数据仓库组件的操作是对相应表的直接查询。

最终用户访问工具:

这分为五个不同的组,如1.数据报告 2.查询工具 3.应用程序开发工具 4. EIS工具 5.OLAP工具和数据挖掘工具。

参考资料

谁需要数据仓库?

  • 依赖大数据的决策者
  • 使用自定义复杂流程从多个数据源获取信息的用户。

航空公司:

在航空公司系统中,它用于职员分配,路线盈利能力分析,旅客计划促销等。

银行业:

管理可用的资源。 一些银行也用于市场调研,产品和运营的绩效分析。

卫生保健:

医疗保健行业还使用数据仓库来制定战略并预测结果,生成患者的治疗报告,与保险公司等共享数据,医疗援助服务等。

公共部门:

在公共部门,数据仓库用于情报收集。 它有助于政府机构维护和分析每个人的税务记录,健康政策记录。

投资和保险业:

分析数据模式,客户趋势以及跟踪市场变动。

零售:

在零售连锁店中,数据仓库广泛用于分销和营销。 它还有助于跟踪项目,客户购买模式,促销以及用于确定定价政策。

电信:

产品促销,销售决策和制定分销决策。

酒店业:

设计和估计他们希望根据客户的反馈和旅行模式定位客户的广告和促销活动。

实施数据仓库的步骤

  1. 企业战略 :在此我们确定技术,包括当前的架构和工具。 我们还确定事实,维度和属性。 还传递了数据映射和转换。
  2. 分阶段交付 :应根据主题领域分阶段实施数据仓库。 应首先实施预订和计费等相关业务实体,然后相互集成。
  3. 迭代原型 :数据仓库应该迭代开发和测试。

这里是Datawarehouse实施的关键步骤及其可交付成果。

图片.png

实施数据仓库的最佳实践

  • 确定计划以测试数据的一致性,准确性和完整性。
  • 数据仓库必须很好地集成,定义良好并带有时间戳。
  • 在设计Datawarehouse时,请确保使用正确的工具,坚持生命周期,注意数据冲突并准备好从错误中学习。
  • 切勿更换运营系统和报告
  • 不要在提取,清理和加载数据上花费太多时间。
  • 确保所有利益相关者(包括业务人员)参与数据仓库实施流程。 确定数据仓库是联合/团队项目。 您不希望创建对最终用户无用的数据仓库。
  • 为最终用户准备培训计划。

为什么我们需要数据仓库? 优点缺点

数据仓库的优点:

  • 数据仓库允许业务用户快速访问来自某些来源的关键数据。
  • 数据仓库提供有关各种跨职能活动的一致信息。 它还支持临时报告和查询。
  • 数据仓库有助于集成许多数据源,以减少生产系统的压力。
  • 数据仓库有助于缩短分析和报告的总周转时间。
  • 重组和集成使用户更容易用于报告和分析。
  • 数据仓库允许用户访问多个源关键数据。 因此,它节省了用户从多个源检索数据的时间。
  • 数据仓库存储大量历史数据。 这有助于用户分析不同的时间段和趋势,以便进行未来的预测。

数据仓库的缺点:

  • 不是非结构化数据的理想选择。
  • 数据仓库的创建和实施肯定会有时间混乱。
  • 数据仓库很容易过时
  • 难以对数据类型和范围,数据源架构,索引和查询进行更改。
  • 数据仓库看起来很简单,但实际上,对于普通用户来说,它太复杂了。
  • 尽管在项目管理方面做出了最大努力,但数据仓库项目范围仍将不断增加。
  • 有时仓库用户会制定不同的业务规则。
  • 组织需要将大量资源用于培训和实施目的。

数据仓库的未来

  • 监管约束的变化可能会限制组合不同数据来源的能力。 这些不同的来源可能包括难以存储的非结构化数据。
  • 随着数据库规模的增长,对构成非常大的数据库的估计值继续增长。 构建和运行数据仓库系统非常复杂,而且数据仓库系统的规模也在不断扩大。 目前可用的硬件和软件资源不允许在线保存大量数据。
  • 多媒体数据检索问题。

数据仓库工具

市场上有许多数据仓库工具。 这里有一些最突出的:

1.MarkLogic:

MarkLogic使用一系列企业功能使数据集成更容易,更快捷。 此工具有助于执行非常复杂的搜索操作。 它可以查询不同类型的数据,如文档,关系和元数据。

http://developer.marklogic.com/products

甲骨文:

Oracle是业界领先的数据库。 它为内部部署和云端提供了广泛的数据仓库解决方案选择。 它有助于通过提高运营效率来优化客户体验。

https://www.oracle.com/index.html

3.亚马逊RedShift:

它使用标准SQL和现有BI工具分析所有类型数据的简单且经济高效的工具。 它还允许使用查询优化技术运行针对数PB的结构化数据的复杂查询。

https://aws.amazon.com/redshift/?nc2=h_m1

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《算法笔记知识点记录》第二章——快速入门1[数据类型和顺序结构](1)
《算法笔记知识点记录》第二章——快速入门1[数据类型和顺序结构](1)
26 0
Python爬虫入门教程 28-100 虎嗅网文章数据抓取 pyspider
1. 虎嗅网文章数据----写在前面 今天继续使用pyspider爬取数据,很不幸,虎嗅资讯网被我选中了,网址为 https://www.huxiu.com/ 爬的就是它的资讯频道,本文章仅供学习交流使用,切勿用作其他用途。
1171 0
教你零基础如何快速入门大数据技巧
现在是大数据时代,很多人都想要学习大数据,因为不管是就业前景还是薪资都非常的不错,不少人纷纷从其他行业转型到大数据行业,那么零基础的人也想要学习大数据怎么办呢?下面一起探讨下零基础如何快速入门大数据技巧吧。
961 0
ActiveReports 报表控件官方中文入门教程 (2)-创建、数据源、浏览以及发布
原文:ActiveReports 报表控件官方中文入门教程 (2)-创建、数据源、浏览以及发布 本篇文章将阐述首次使用 ActiveReports 报表控件 的方法,包括添加报表文件、绑定数据源以及如何发布报表等内容。
1062 0
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面 今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数据分析博文,记得关注哦~ 36kr 让一部分人先看到未来,而你今天要做的事情确实要抓取它的过去。
9530 0
Python爬虫入门教程 29-100 手机APP数据抓取 pyspider
1. 手机APP数据----写在前面 继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。
1056 0
Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨 缘由 今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的..
632 0
基础篇:数据库 SQL 入门教程(一)
基础篇:数据库 SQL 入门教程(一)
118 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
29428 0
《算法笔记知识点记录》第二章——快速入门1[数据类型和顺序结构](3)
《算法笔记知识点记录》第二章——快速入门1[数据类型和顺序结构](3)
33 0
+关注
python人工智能命理
提供书籍寻找服务,十元一本起,不成功不收费。 曾任职于腾讯、华为等公司,独立带队完成大型项目的全系统测试,担任过技术总监、测试经理以及测试专家职位。现任某主流公司自动化测试架构师。
170
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载