大数据与机器学习:实践方法与行业案例.2.1 数据闭环

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

第2章

数 据 体 系

迟序之数,非出神怪,有形可检,有数可推。事类相推,各有攸归,故枝条虽分而同本干知,发其一端而已。又所析理以辞,解体用图,庶亦约而能周,通而不黩,览之者思过半矣。

—刘徽《九章算术注》

管理就是决策。

—赫伯特·西蒙

数据存在于生产环境、数据缓冲区以及分析环境的各个节点中,并且由各种技术手段支撑着数据的存储和计算。通常,在企业中,生产环境由开发部门负责,而分析环境和数据缓冲区则由数据部门负责,物理环境分离以及管理上的隔离会让人们产生一种错觉:数据是数据部门的事情,应用系统是开发部门的事情。这对数据的应用是非常不利的。

我们应该试图从更高层次上来对待数据,要打破管理和认知上的壁垒,就要让数据像金融系统中的资本那样运转起来。隔离的、静止的数据是乏味的,就如货币一样,需要流动才能增值。

数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。

因此,要构建一个健康的数据体系,这个体系要像货币流通系统那样能够循环和增值,这是本章将要讨论的主题。


2.1 数据闭环


基于数据流动的理念,我们想象一个完美的数据闭环:数据在三种形态之间的循环转换,从生产系统产生,经过整个闭环后,最终仍然应用于生产系统。在这个数据闭环中,数据形态的每次转化,都伴随着数据的相应增值,如图2-1所示。

 

图2-1 数据闭环


处于数据闭环中的分析环境不再是“数据坟墓”,而是成为闭环中的一个节点。构建数据闭环的目的是让数据自动循环下去,为数据注入动力,避免数据“沉积”下来埋入坟墓,一个完善的数据闭环具有表2-1中的特征。

表2-1 数据闭环的基本特征

说 明 技术方案

松耦合 数据闭环中各个环节之间是松耦合的,彼此之间互不影响 设立数据缓冲区

自动化 数据的循环流动由系统自动完成,将人工作业降到最低 定制化数据对接系统、ETL作业和调度工具

易扩展 数据闭环需要有良好的扩展性,当新的应用系统需要将数据对接时,通过配置文件的方式即可实现 定制化数据对接系统

可监控 数据闭环的运行情况能够实时监控,并可通过短信、邮件进行预警 日志系统、使用BI进行可视化监控

 

数据闭环成功的关键在于松耦合、易扩展,设立数据缓冲区可以以极低的成本达成这一目标。所有需要数据交互的系统,都要先将数据存储在数据缓冲区中,然后从数据缓冲区中选择需要的数据进行加载,这既避免了多个系统之间的直接耦合,同时也具备了易扩展的特性,新的系统只需要按照数据缓冲区的格式要求将数据存储在数据缓冲区中即可。

通过定制化的数据对接系统,实现数据的自动识别、加载,并结合周期性的ETL作业和调度工具,可以实现数据缓冲区数据的自动出入,是数据闭环中的数据“自动”流转。

此外,通过BI工具和日志收集监控工具,可实现整个数据闭环的可视化监控,并可以通过短信、邮件进行预警,这为数据闭环的持续健康运行提供了保障。

下面将从数据缓冲区、ETL作业、监控预警等方面进行介绍。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
机器学习/深度学习 Python
验证集的划分方法:确保机器学习模型泛化能力的关键
本文详细介绍了机器学习中验证集的作用及其划分方法。验证集主要用于评估模型性能和调整超参数,不同于仅用于最终评估的测试集。文中描述了几种常见的划分方法,包括简单划分、交叉验证、时间序列数据划分及分层抽样划分,并提供了Python示例代码。此外,还强调了在划分数据集时应注意随机性、数据分布和多次实验的重要性。合理划分验证集有助于更准确地评估模型性能并进行有效调优。
|
12天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
56 11
|
13天前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
20 4
|
17天前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
47 1
|
22天前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
25天前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
17天前
|
分布式计算 安全 大数据
MaxCompute 的安全性和数据隐私保护
【8月更文第31天】在当今数字化转型的时代背景下,企业越来越依赖于大数据分析来推动业务增长。与此同时,数据安全和隐私保护成为了不容忽视的关键问题。作为阿里巴巴集团推出的大数据处理平台,MaxCompute(原名 ODPS)致力于为企业提供高效、安全的数据处理解决方案。本文将探讨 MaxCompute 在数据安全方面的实践,包括数据加密、访问控制及合规性考虑等方面。
40 0
|
26天前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
如何用贝叶斯方法来解决机器学习中的分类问题?
|
28天前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
48 0
|
29天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章