大数据与机器学习：实践方法与行业案例.2.1　数据闭环-阿里云开发者社区

大数据与机器学习：实践方法与行业案例.2.1　数据闭环

2017-05-02 2695

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

第2章

数据体系

迟序之数，非出神怪，有形可检，有数可推。事类相推，各有攸归，故枝条虽分而同本干知，发其一端而已。又所析理以辞，解体用图，庶亦约而能周，通而不黩，览之者思过半矣。

—刘徽《九章算术注》

管理就是决策。

—赫伯特·西蒙

数据存在于生产环境、数据缓冲区以及分析环境的各个节点中，并且由各种技术手段支撑着数据的存储和计算。通常，在企业中，生产环境由开发部门负责，而分析环境和数据缓冲区则由数据部门负责，物理环境分离以及管理上的隔离会让人们产生一种错觉：数据是数据部门的事情，应用系统是开发部门的事情。这对数据的应用是非常不利的。

我们应该试图从更高层次上来对待数据，要打破管理和认知上的壁垒，就要让数据像金融系统中的资本那样运转起来。隔离的、静止的数据是乏味的，就如货币一样，需要流动才能增值。

数据的流动伴随着形态的变化（回忆数据的三种形态：生产数据、原始数据、分析数据），我们知道数据最终仍然要回归于生产系统（从生产中来，到生产中去），一切离开了生产应用的数据分析和处理都是徒劳无益的。

因此，要构建一个健康的数据体系，这个体系要像货币流通系统那样能够循环和增值，这是本章将要讨论的主题。

2.1　数据闭环

基于数据流动的理念，我们想象一个完美的数据闭环：数据在三种形态之间的循环转换，从生产系统产生，经过整个闭环后，最终仍然应用于生产系统。在这个数据闭环中，数据形态的每次转化，都伴随着数据的相应增值，如图2-1所示。

图2-1　数据闭环

处于数据闭环中的分析环境不再是“数据坟墓”，而是成为闭环中的一个节点。构建数据闭环的目的是让数据自动循环下去，为数据注入动力，避免数据“沉积”下来埋入坟墓，一个完善的数据闭环具有表2-1中的特征。

表2-1　数据闭环的基本特征

说　明技术方案

松耦合数据闭环中各个环节之间是松耦合的，彼此之间互不影响设立数据缓冲区

自动化数据的循环流动由系统自动完成，将人工作业降到最低定制化数据对接系统、ETL作业和调度工具

易扩展数据闭环需要有良好的扩展性，当新的应用系统需要将数据对接时，通过配置文件的方式即可实现定制化数据对接系统

可监控数据闭环的运行情况能够实时监控，并可通过短信、邮件进行预警日志系统、使用BI进行可视化监控

数据闭环成功的关键在于松耦合、易扩展，设立数据缓冲区可以以极低的成本达成这一目标。所有需要数据交互的系统，都要先将数据存储在数据缓冲区中，然后从数据缓冲区中选择需要的数据进行加载，这既避免了多个系统之间的直接耦合，同时也具备了易扩展的特性，新的系统只需要按照数据缓冲区的格式要求将数据存储在数据缓冲区中即可。

通过定制化的数据对接系统，实现数据的自动识别、加载，并结合周期性的ETL作业和调度工具，可以实现数据缓冲区数据的自动出入，是数据闭环中的数据“自动”流转。

此外，通过BI工具和日志收集监控工具，可实现整个数据闭环的可视化监控，并可以通过短信、邮件进行预警，这为数据闭环的持续健康运行提供了保障。

下面将从数据缓冲区、ETL作业、监控预警等方面进行介绍。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据与机器学习：实践方法与行业案例.2.1　数据闭环

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

大数据与机器学习：实践方法与行业案例.2.1 数据闭环

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

大数据与机器学习：实践方法与行业案例.2.1　数据闭环