大数据与机器学习:实践方法与行业案例.2.1 数据闭环-阿里云开发者社区

开发者社区> 华章出版社> 正文

大数据与机器学习:实践方法与行业案例.2.1 数据闭环

简介:

第2章

数 据 体 系

迟序之数,非出神怪,有形可检,有数可推。事类相推,各有攸归,故枝条虽分而同本干知,发其一端而已。又所析理以辞,解体用图,庶亦约而能周,通而不黩,览之者思过半矣。

—刘徽《九章算术注》

管理就是决策。

—赫伯特·西蒙

数据存在于生产环境、数据缓冲区以及分析环境的各个节点中,并且由各种技术手段支撑着数据的存储和计算。通常,在企业中,生产环境由开发部门负责,而分析环境和数据缓冲区则由数据部门负责,物理环境分离以及管理上的隔离会让人们产生一种错觉:数据是数据部门的事情,应用系统是开发部门的事情。这对数据的应用是非常不利的。

我们应该试图从更高层次上来对待数据,要打破管理和认知上的壁垒,就要让数据像金融系统中的资本那样运转起来。隔离的、静止的数据是乏味的,就如货币一样,需要流动才能增值。

数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。

因此,要构建一个健康的数据体系,这个体系要像货币流通系统那样能够循环和增值,这是本章将要讨论的主题。


2.1 数据闭环


基于数据流动的理念,我们想象一个完美的数据闭环:数据在三种形态之间的循环转换,从生产系统产生,经过整个闭环后,最终仍然应用于生产系统。在这个数据闭环中,数据形态的每次转化,都伴随着数据的相应增值,如图2-1所示。

 

图2-1 数据闭环


处于数据闭环中的分析环境不再是“数据坟墓”,而是成为闭环中的一个节点。构建数据闭环的目的是让数据自动循环下去,为数据注入动力,避免数据“沉积”下来埋入坟墓,一个完善的数据闭环具有表2-1中的特征。

表2-1 数据闭环的基本特征

说 明 技术方案

松耦合 数据闭环中各个环节之间是松耦合的,彼此之间互不影响 设立数据缓冲区

自动化 数据的循环流动由系统自动完成,将人工作业降到最低 定制化数据对接系统、ETL作业和调度工具

易扩展 数据闭环需要有良好的扩展性,当新的应用系统需要将数据对接时,通过配置文件的方式即可实现 定制化数据对接系统

可监控 数据闭环的运行情况能够实时监控,并可通过短信、邮件进行预警 日志系统、使用BI进行可视化监控

 

数据闭环成功的关键在于松耦合、易扩展,设立数据缓冲区可以以极低的成本达成这一目标。所有需要数据交互的系统,都要先将数据存储在数据缓冲区中,然后从数据缓冲区中选择需要的数据进行加载,这既避免了多个系统之间的直接耦合,同时也具备了易扩展的特性,新的系统只需要按照数据缓冲区的格式要求将数据存储在数据缓冲区中即可。

通过定制化的数据对接系统,实现数据的自动识别、加载,并结合周期性的ETL作业和调度工具,可以实现数据缓冲区数据的自动出入,是数据闭环中的数据“自动”流转。

此外,通过BI工具和日志收集监控工具,可实现整个数据闭环的可视化监控,并可以通过短信、邮件进行预警,这为数据闭环的持续健康运行提供了保障。

下面将从数据缓冲区、ETL作业、监控预警等方面进行介绍。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接