大数据与机器学习:实践方法与行业案例.2.1 数据闭环

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

第2章

数 据 体 系

迟序之数,非出神怪,有形可检,有数可推。事类相推,各有攸归,故枝条虽分而同本干知,发其一端而已。又所析理以辞,解体用图,庶亦约而能周,通而不黩,览之者思过半矣。

—刘徽《九章算术注》

管理就是决策。

—赫伯特·西蒙

数据存在于生产环境、数据缓冲区以及分析环境的各个节点中,并且由各种技术手段支撑着数据的存储和计算。通常,在企业中,生产环境由开发部门负责,而分析环境和数据缓冲区则由数据部门负责,物理环境分离以及管理上的隔离会让人们产生一种错觉:数据是数据部门的事情,应用系统是开发部门的事情。这对数据的应用是非常不利的。

我们应该试图从更高层次上来对待数据,要打破管理和认知上的壁垒,就要让数据像金融系统中的资本那样运转起来。隔离的、静止的数据是乏味的,就如货币一样,需要流动才能增值。

数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。

因此,要构建一个健康的数据体系,这个体系要像货币流通系统那样能够循环和增值,这是本章将要讨论的主题。


2.1 数据闭环


基于数据流动的理念,我们想象一个完美的数据闭环:数据在三种形态之间的循环转换,从生产系统产生,经过整个闭环后,最终仍然应用于生产系统。在这个数据闭环中,数据形态的每次转化,都伴随着数据的相应增值,如图2-1所示。

 

图2-1 数据闭环


处于数据闭环中的分析环境不再是“数据坟墓”,而是成为闭环中的一个节点。构建数据闭环的目的是让数据自动循环下去,为数据注入动力,避免数据“沉积”下来埋入坟墓,一个完善的数据闭环具有表2-1中的特征。

表2-1 数据闭环的基本特征

说 明 技术方案

松耦合 数据闭环中各个环节之间是松耦合的,彼此之间互不影响 设立数据缓冲区

自动化 数据的循环流动由系统自动完成,将人工作业降到最低 定制化数据对接系统、ETL作业和调度工具

易扩展 数据闭环需要有良好的扩展性,当新的应用系统需要将数据对接时,通过配置文件的方式即可实现 定制化数据对接系统

可监控 数据闭环的运行情况能够实时监控,并可通过短信、邮件进行预警 日志系统、使用BI进行可视化监控

 

数据闭环成功的关键在于松耦合、易扩展,设立数据缓冲区可以以极低的成本达成这一目标。所有需要数据交互的系统,都要先将数据存储在数据缓冲区中,然后从数据缓冲区中选择需要的数据进行加载,这既避免了多个系统之间的直接耦合,同时也具备了易扩展的特性,新的系统只需要按照数据缓冲区的格式要求将数据存储在数据缓冲区中即可。

通过定制化的数据对接系统,实现数据的自动识别、加载,并结合周期性的ETL作业和调度工具,可以实现数据缓冲区数据的自动出入,是数据闭环中的数据“自动”流转。

此外,通过BI工具和日志收集监控工具,可实现整个数据闭环的可视化监控,并可以通过短信、邮件进行预警,这为数据闭环的持续健康运行提供了保障。

下面将从数据缓冲区、ETL作业、监控预警等方面进行介绍。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
16天前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从理论到实践的旅程
【8月更文挑战第26天】机器学习,这个听起来既神秘又充满无限可能的领域,实际上已经深入到我们生活的方方面面。本文将通过一次虚拟的“旅行”,带领读者了解机器学习的基本概念、主要技术和应用实例,同时提供一个简单的Python代码示例,帮助初学者迈出探索这一激动人心领域的第一步。无论你是科技爱好者,还是对未来充满好奇的学生,这篇文章都将成为你理解并应用机器学习技术的启航点。
|
1天前
|
机器学习/深度学习 Python
验证集的划分方法:确保机器学习模型泛化能力的关键
本文详细介绍了机器学习中验证集的作用及其划分方法。验证集主要用于评估模型性能和调整超参数,不同于仅用于最终评估的测试集。文中描述了几种常见的划分方法,包括简单划分、交叉验证、时间序列数据划分及分层抽样划分,并提供了Python示例代码。此外,还强调了在划分数据集时应注意随机性、数据分布和多次实验的重要性。合理划分验证集有助于更准确地评估模型性能并进行有效调优。
|
6天前
|
机器学习/深度学习 人工智能 算法
利用机器学习预测股市趋势:一个实战案例
【9月更文挑战第5天】在这篇文章中,我们将探索如何使用机器学习技术来预测股市趋势。我们将通过一个简单的Python代码示例来演示如何实现这一目标。请注意,这只是一个入门级的示例,实际应用中可能需要更复杂的模型和更多的数据。
|
8天前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
15 4
|
14天前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
20天前
|
机器学习/深度学习 人工智能 算法
探索机器学习的奥秘:从理论到实践
【8月更文挑战第23天】在这篇文章中,我们将深入探讨机器学习的世界,从基础理论到实际应用。我们将了解机器学习的基本概念,探索不同类型的机器学习算法,并讨论如何将这些算法应用于实际问题。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和知识。让我们一起踏上这段激动人心的旅程吧!
|
4天前
|
机器学习/深度学习 人工智能 算法
探索人工智能:机器学习的基本原理与Python代码实践
【9月更文挑战第6天】本文深入探讨了人工智能领域中的机器学习技术,旨在通过简明的语言和实际的编码示例,为初学者提供一条清晰的学习路径。文章不仅阐述了机器学习的基本概念、主要算法及其应用场景,还通过Python语言展示了如何实现一个简单的线性回归模型。此外,本文还讨论了机器学习面临的挑战和未来发展趋势,以期激发读者对这一前沿技术的兴趣和思考。
|
11天前
|
C# 机器学习/深度学习 搜索推荐
WPF与机器学习的完美邂逅:手把手教你打造一个具有智能推荐功能的现代桌面应用——从理论到实践的全方位指南,让你的应用瞬间变得高大上且智能无比
【8月更文挑战第31天】本文详细介绍如何在Windows Presentation Foundation(WPF)应用中集成机器学习功能,以开发具备智能化特性的桌面应用。通过使用Microsoft的ML.NET框架,本文演示了从安装NuGet包、准备数据集、训练推荐系统模型到最终将模型集成到WPF应用中的全过程。具体示例代码展示了如何基于用户行为数据训练模型,并实现实时推荐功能。这为WPF开发者提供了宝贵的实践指导。
20 0
|
11天前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从基础到实践
【8月更文挑战第31天】本文将带你走进机器学习的世界,从理解其基本概念开始,逐步深入到算法的应用和编程实践。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型,让你对机器学习的工作原理有一个直观的认识。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和知识。
|
14天前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
57 0