大数据与机器学习:实践方法与行业案例.2.1 数据闭环-阿里云开发者社区

开发者社区> 华章计算机> 正文

大数据与机器学习:实践方法与行业案例.2.1 数据闭环

简介:
+关注继续查看

第2章

数 据 体 系

迟序之数,非出神怪,有形可检,有数可推。事类相推,各有攸归,故枝条虽分而同本干知,发其一端而已。又所析理以辞,解体用图,庶亦约而能周,通而不黩,览之者思过半矣。

—刘徽《九章算术注》

管理就是决策。

—赫伯特·西蒙

数据存在于生产环境、数据缓冲区以及分析环境的各个节点中,并且由各种技术手段支撑着数据的存储和计算。通常,在企业中,生产环境由开发部门负责,而分析环境和数据缓冲区则由数据部门负责,物理环境分离以及管理上的隔离会让人们产生一种错觉:数据是数据部门的事情,应用系统是开发部门的事情。这对数据的应用是非常不利的。

我们应该试图从更高层次上来对待数据,要打破管理和认知上的壁垒,就要让数据像金融系统中的资本那样运转起来。隔离的、静止的数据是乏味的,就如货币一样,需要流动才能增值。

数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。

因此,要构建一个健康的数据体系,这个体系要像货币流通系统那样能够循环和增值,这是本章将要讨论的主题。


2.1 数据闭环


基于数据流动的理念,我们想象一个完美的数据闭环:数据在三种形态之间的循环转换,从生产系统产生,经过整个闭环后,最终仍然应用于生产系统。在这个数据闭环中,数据形态的每次转化,都伴随着数据的相应增值,如图2-1所示。

 

图2-1 数据闭环


处于数据闭环中的分析环境不再是“数据坟墓”,而是成为闭环中的一个节点。构建数据闭环的目的是让数据自动循环下去,为数据注入动力,避免数据“沉积”下来埋入坟墓,一个完善的数据闭环具有表2-1中的特征。

表2-1 数据闭环的基本特征

说 明 技术方案

松耦合 数据闭环中各个环节之间是松耦合的,彼此之间互不影响 设立数据缓冲区

自动化 数据的循环流动由系统自动完成,将人工作业降到最低 定制化数据对接系统、ETL作业和调度工具

易扩展 数据闭环需要有良好的扩展性,当新的应用系统需要将数据对接时,通过配置文件的方式即可实现 定制化数据对接系统

可监控 数据闭环的运行情况能够实时监控,并可通过短信、邮件进行预警 日志系统、使用BI进行可视化监控

 

数据闭环成功的关键在于松耦合、易扩展,设立数据缓冲区可以以极低的成本达成这一目标。所有需要数据交互的系统,都要先将数据存储在数据缓冲区中,然后从数据缓冲区中选择需要的数据进行加载,这既避免了多个系统之间的直接耦合,同时也具备了易扩展的特性,新的系统只需要按照数据缓冲区的格式要求将数据存储在数据缓冲区中即可。

通过定制化的数据对接系统,实现数据的自动识别、加载,并结合周期性的ETL作业和调度工具,可以实现数据缓冲区数据的自动出入,是数据闭环中的数据“自动”流转。

此外,通过BI工具和日志收集监控工具,可实现整个数据闭环的可视化监控,并可以通过短信、邮件进行预警,这为数据闭环的持续健康运行提供了保障。

下面将从数据缓冲区、ETL作业、监控预警等方面进行介绍。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《构建实时机器学习系统》一1.7 案例:Netflix在机器学习竞赛中学到的经验
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.7节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1505 0
阿里云服务器大数据实例规格族d1ne和d1特点及具体型号介绍
本文介绍阿里云服务器大数据型实例规格族d1ne和d1实例规格族的特点,具体型号,适用场景等基本参数,并列出了具体的实例规格。 大数据网络增强型实例规格族 d1ne 规格族特点 I/O优化实例 支持IPv6 仅支持SSD云盘和高效云盘 实例配备大容量、高吞吐SATA HDD本地盘,辅以最大35 Gbit/s实例间网络带宽 处理器与内存配比为1:4,为大数据场景设计 处理器:2.
1564 0
持续探索行业新趋势,PAI平台获得联邦学习评测证书
2021 年 6 月 24 日,阿里云机器学习平台PAI获得“大数据产品能力评测”联邦学习项目基础能力专项评测证书,持续探索行业新趋势,不断在前沿的热门领域尝试AI应用落地。
225 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
12029 0
Django学习笔记----数据库操作实例
上上篇>Django学习笔记----环境搭建基于Windows 上一篇>Django学习笔记----快速入门 修改settings.py配置 在环境搭建篇, 我们已经安装了mysql-client包 安装好后, 在settings.
1198 0
十大行业经典案例!Apache Flink 的 40 个最佳实践
如今,Apache Flink 行业应用几何?在降本增效的需求驱动下,企业如何实现数据与算力价值最大化?本文整理了 Flink 社区近一年的社区案例,并按照行业进行分类,供大家参考!
6839 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载