【数据湖】塑造湖:数据湖框架

简介: 【数据湖】塑造湖:数据湖框架

Azure Data Lake 刚刚全面上市,尤其是 Azure Data Lake Store 的管理似乎令人生畏,尤其是在处理大数据时。在这篇博客中,我将带您了解使用数据湖和大数据的风险和挑战。然后,我将带您了解我们为帮助最好地管理这些风险和挑战而创建的框架。

如果您需要了解什么是数据湖以及如何创建您的第一个 Azure Data Lake Store 和您的第一个 Azure Data Lake Analytics 作业,请随时关注这些链接。

大数据和数据湖的风险和挑战

大数据带来的挑战如下:

  • 容量——庞大的数据量是否变得难以管理?
  • 多样性——结构化表格?半结构化 JSON?完全非结构化的文本转储?我们通常可以使用仅包含其中一个的系统进行管理,但如果我们要处理一个巨大的混合体,它就会变得非常棘手
  • 速度——数据输入的速度有多快?我们需要多快才能将它送到需要它的人手中?
  • 准确性——当数据量不同、来源和结构不同以及它们到达湖的速度不同时,我们如何保持准确性和准确性?
  • 同时管理所有四个是挑战的开始。

很容易将数据湖视为任何事物的倾倒场。微软的销售宣传正是如此——“存储便宜,存储一切!!”。我们倾向于同意——但如果数据完全不正确、不准确、过时或完全无法理解,那么它根本没有用,并且会让任何试图理解数据的人感到困惑。这实际上将创建一个没有人愿意进入的数据沼泽。糟糕的数据和管理不善的文件削弱了人们对湖泊作为信息来源的信任。倾倒是不好的。

还有数据淹没——因为数据量趋向于海量,而且速度只会随着时间的推移而增加,我们将看到越来越多的信息可以通过湖获得。到了那个时候,如果湖泊管理不善,那么用户将很难找到他们想要的东西。这些数据可能都是完全相关和准确的,但如果用户找不到他们需要的东西,那么湖本身就没有价值。从本质上讲,数据淹没是指数据量如此之大,以至于您无法找到其中的内容。

如果您忽略这些挑战,将湖泊视为垃圾场,您将污染您的湖泊,它将不再适合使用。

如果没有人使用数据湖,那将是一项毫无意义的努力,不值得维护。

每个人都需要共同努力,以确保湖泊保持清洁、管理和有利于数据潜水!

这些是我们在使用 Azure Data Lake 时面临的风险和挑战。但是我们如何管理它呢?

框架

我们把湖分成不同的部分。关键是湖中包含各种不同的数据——一些已经过清理并可供业务用户使用,一些是无法辨认的原始数据,需要在使用之前进行仔细分析。通过确保数据得到仔细管理,您可以立即了解数据的准备程度。

数据从左到右流动——更左边的区域表示直接从源系统输入数据的位置。水平部分描述了准备的级别——手动、流和批处理。

  • 手工——又名实验室。这里的数据是使用临时脚本手动准备的。
  • ——这里的数据是半实时的,来自事件中心,并在通过流分析等特定于流的工具进行处理后登陆。一旦登陆,就没有进一步的数据处理——湖本质上是一个批处理工具。
  • 批处理——这是更传统的数据处理,许多 BI 开发人员看到的那种“ETL”。我们有一个原始数据的登陆区域,一个过渡区域,在此区域中,数据被清理、验证、丰富和增强,并添加了额外的来源和计算,然后最终被放置在一个可供业务使用的精选区域中。

我们正在使用 Data Lake Store 的空白画布,并在顶部应用文件夹结构、文件管理流程和管理流程。

文件夹结构本身可以任意详细,我们自己遵循一个特定的结构:

原始数据区域是进入湖的任何文件的着陆点,每个数据源都有子文件夹。这允许轻松浏览 Lake 中的数据源,并确保我们不会两次收到相同的数据,即使我们在不同的系统中使用它也是如此。

然而,Enriched 和 Curated 层有特定的用途。我们不会在没有业务驱动的情况下获取数据并对其进行丰富/清理/处理,这不是我们为了好玩而做的事情。因此,我们可以为它分配一个项目或系统名称,此时它被组织到这些终端系统中。这意味着我们可以在 Enriched 中查看与 Curated 中相同的结构。

本质上,原始数据按来源分类,而丰富和策划的数据按目的地分类。

我们创建的框架或我们赋予它的过程没有什么复杂的,但是让每个人都了解它的意图和数据湖的一般用途是非常重要的。如果一个用户在添加数据时没有遵循流程,或者 ETL 开发人员没有清理测试文件,系统就会开始崩溃,我们就会屈服于我们一开始讨论的挑战。

总而言之,Azure Data Lake Store 中的结构是维持秩序的关键:

  • 您需要强制执行和维护文件夹结构。
  • 请记住,无论是使用非结构化数据还是表和 SQL,结构都是必要的
  • 请记住,读取模式应用了临时结构——但如果你不知道你在看什么,这将很难做到!
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
存储 SQL 分布式计算
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。
27260 2
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
|
4月前
|
存储 数据采集 分布式计算
大规模数据处理:从数据湖到数据仓库
对于大型企业来说,海量的数据是一种巨大的财富,但如何高效地处理这些数据却是一个巨大的挑战。本文将介绍大规模数据处理的两种主流方式:数据湖和数据仓库,并探讨它们的优缺点以及如何选择适合企业的方案。
49 1
|
4月前
|
存储 机器学习/深度学习 运维
数据仓库与数据湖:解析企业数据管理的两大利器
在信息时代,企业数据的管理和分析变得至关重要。数据仓库和数据湖作为两种不同的数据管理模式,各自具有独特的特点和应用场景。本文将深入探讨数据仓库与数据湖的概念、优势和应用,帮助读者更好地理解和运用这两个工具。
36 0
|
5月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
7月前
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓
|
12月前
|
存储 SQL 分布式计算
BDCC- 数据湖体系
BDCC- 数据湖体系
171 0
|
存储 SQL 机器学习/深度学习
一文读懂选择数据湖还是数据仓库
今天,每秒都在生成 TB 和 PB 的数据,为这些海量数据集寻找存储解决方案至关重要。
一文读懂选择数据湖还是数据仓库
|
存储 消息中间件 数据采集
数据湖(一):数据湖概念
数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。
807 1
数据湖(一):数据湖概念
|
存储 SQL 关系型数据库
数据仓库、数据湖、流批一体,终于有大神讲清楚了!
数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?
4025 0