【数据架构】数据网格与 Data Fabric:了解差异

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【数据架构】数据网格与 Data Fabric:了解差异

Data Mesh Vs. Data Fabric: Understanding the Differences

在为组织当前和未来的需求构建最佳数据架构的过程中,您有很多选择。由于软件的可邮寄性,这些选项几乎是无限的。但对您来说幸运的是,某些模式已经出现,可以帮助您处理数据路径,包括数据编织和数据网格


乍一看,数据编织和数据网格概念听起来非常相似。毕竟,网格通常由一种织物制成,它们都是可延展的物品,可以放在物体上——在这种情况下,您的 IT 系统会受到不断增长的数据挤压。

但这两种方法存在根本差异,因此值得花一些时间来了解它们的差异。

数据编织

Forrester 分析师 Noel Yuhanna 是最早在 200 年代中期定义数据编织的人之一。从概念上讲,大数据编织本质上是一种元数据驱动的方式,用于连接不同的数据工具集合,这些工具以一种凝聚力和自助服务的方式解决大数据项目中的关键痛点。具体来说,Data Fabric 解决方案在数据访问、发现、转换、集成、安全、治理、沿袭和编排等领域提供功能。Graph 也经常用于链接数据资产和用户。

Momentum 正在构建数据编织概念,作为一种在日益多样化的环境中简化数据访问和管理的方式,包括事务和操作数据存储、数据仓库、数据湖和湖屋。组织正在构建更多的数据孤岛,而不是更少,随着云计算的发展,围绕数据多样化的问题比以往任何时候都大。


  • A data fabric consists of multiple data management layers (Image source: Eckerson Group)

借助几乎覆盖在各种数据存储库之上的单一数据编织,组织可以为不同的数据源和下游消费者(包括数据管理员、数据工程师、数据分析师和数据科学家)带来某种统一管理。但需要注意的是,管理是统一的,而不是实际的存储,它仍然是分布式的。

包括 Informatica 和 Talend 在内的一些工具供应商提供包含上述许多功能的实用数据编织,而其他工具供应商(例如 Ataccama 和 Denodo)则提供特定的数据编织部分。Google Cloud 还通过其新的 Dataplex 产品支持数据编织方法。数据编织中各种组件之间的集成通常通过 API 和通用 JSON 数据格式进行处理。

数据网格

虽然数据网格旨在解决许多与数据编织相同的问题,即在异构数据环境中管理数据的困难,但它以完全不同的方式解决问题。简而言之,虽然数据编织试图在分布式数据之上构建一个单一的虚拟管理层,但数据网格鼓励分布式团队组在他们认为合适的时候管理数据,尽管有一些共同的治理规定

数据网格概念最初是由 Zhamak Dehghani 写下的,他现在是 Thoughtworks North America 的下一代技术孵化主管。Dehghani 在她 2019 年 5 月的报告“如何超越单体数据湖到分布式数据网格”中阐述了数据网格的许多原则和概念,随后她在 2020 年 12 月发布了题为“数据网格原则和逻辑架构”的报告。”

正如我们今年早些时候所写的,驱动数据网格的核心原则是纠正数据湖和数据仓库之间的不一致第一代数据仓库旨在存储大量结构化数据让分析师用于回溯 SQL 分析,而第二代数据湖主要用于存储数据科学家构建预测性机器学习的大量非结构化数据楷模。Dehghani 写了一个以实时数据流和云服务为标志的第三代系统 (Kappa),但它并没有解决第一代和第二代系统之间潜在的可用性差距。

许多组织构建和维护复杂的 ETL 数据管道,以尝试保持数据同步。这也推动了对负责维护拜占庭系统工作的“超专业数据工程师”的需求。

Dehghani 对这个问题提出的关键见解是,数据转换不能由工程师硬连线到数据中,而应该是一种过滤器,应用于所有用户都可用的公共数据集。因此,与其构建一组复杂的 ETL 管道来将数据移动和转换到各个社区可以分析的专用存储库,不如以大致原始形式保留数据,并且一系列特定领域的团队将拥有该数据的所有权作为他们将数据塑造成产品。Dehghani 的分布式数据网格通过具有四个主要特征的新架构解决了这一问题:

  • 面向领域的去中心化数据所有权和架构;
  • 数据作为产品;
  • 作为平台的自助数据基础设施;
  • 联合计算治理。

实际上,数据网格方法认识到只有数据湖具有处理当今分析需求的可扩展性,但组织试图强加于数据湖的自上而下的管理方式已经失败。数据网格试图以自下而上的方式重新构想所有权结构,使各个团队能够构建满足自己需求的系统,尽管需要进行一些跨团队治理。

网格 VS 编织

正如我们所看到的,数据网格和数据编织方法之间存在相似之处。但是,也有一些差异需要考虑。

根据 Forrester 的 Yuhanna 的说法,数据网格和数据编织方法之间的主要区别在于 API 的访问方式

“与 [数据] 编织不同,数据网格基本上是面向开发人员的 API 驱动 [解决方案],”Yuhanna 说。“[Data Fabric] 与数据网格相反,您正在为 API 编写代码以进行接口。另一方面,数据编织是低代码、无代码的,这意味着 API 集成发生在结构内部,而不是直接利用它,而不是数据网格。

James Serra 是安永 (Earnst and Young) 的数据平台架构负责人,之前是微软的大数据和数据仓库解决方案架构师,这两种方法的区别在于用户访问它们的位置。

“数据编织和数据网格都提供了跨多种技术和平台访问数据的架构,但数据编织以技术为中心,而数据网格则专注于组织变革,”塞拉在 6 月的博客文章中写道。“[A] 数据网格更多的是关于人和流程,而不是架构而数据编织是一种架构方法,它以一种可以很好地协同工作的智能方式处理数据和元数据的复杂性。”

根据 Eckerson Group 分析师 David Wells 的说法,您可以同时使用数据网格和数据编织,甚至是数据枢纽

首先,它们是概念,而不是事物,”Wells 在最近的一篇博客文章“数据架构:复杂(Complex )与复杂(Complicated.)”中写道。“作为架构概念的数据枢纽不同于作为数据库的数据中心。其次,它们是组件,而不是替代品架构同时包含数据编织和数据网格是切实可行的。它们不是相互排斥的。最后,它们是架构框架,而不是架构。在框架根据您的需求、数据、流程和术语进行调整和定制之前,您没有架构。”

数据网格和数据编织都在大数据表中占有一席之地。在寻找支持您的大数据项目的架构概念和架构时,一切都归结为找到最适合您自己的特定需求的方法。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
安全 Android开发 iOS开发
深入探索Android与iOS的差异:从系统架构到用户体验
在当今的智能手机市场中,Android和iOS无疑是最受欢迎的两大操作系统。本文旨在探讨这两个平台之间的主要差异,包括它们的系统架构、开发环境、安全性、以及用户体验等方面。通过对比分析,我们可以更好地理解为何不同的用户群体可能会偏好其中一个平台,以及这些偏好背后的技术原因。
|
1月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
55 8
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
348 7
|
1月前
|
Android开发 Swift iOS开发
深入探索iOS与Android操作系统的架构差异及其对应用开发的影响
在当今数字化时代,移动设备已经成为我们日常生活和工作不可或缺的一部分。其中,iOS和Android作为全球最流行的两大移动操作系统,各自拥有独特的系统架构和设计理念。本文将深入探讨iOS与Android的系统架构差异,并分析这些差异如何影响应用开发者的开发策略和用户体验设计。通过对两者的比较,我们可以更好地理解它们各自的优势和局限性,从而为开发者提供有价值的见解,帮助他们在这两个平台上开发出更高效、更符合用户需求的应用。
|
1月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
57 2
|
3月前
|
IDE Android开发 iOS开发
深入解析Android与iOS的系统架构及开发环境差异
本文旨在探讨Android和iOS两大主流移动操作系统在系统架构、开发环境和用户体验方面的显著差异。通过对比分析,我们将揭示这两种系统在设计理念、技术实现以及市场策略上的不同路径,帮助开发者更好地理解其特点,从而做出更合适的开发决策。
196 2
|
25天前
|
安全 Android开发 iOS开发
深入探索iOS与Android系统架构差异及其对开发者的影响
本文旨在通过对比分析iOS和Android两大移动操作系统的系统架构,探讨它们在设计理念、技术实现及开发者生态方面的差异。不同于常规摘要仅概述内容要点,本摘要将简要触及核心议题,为读者提供对两大平台架构特点的宏观理解,铺垫
|
28天前
|
IDE 安全 Android开发
深入探索Android与iOS操作系统的架构差异
本文旨在对比分析Android和iOS两大主流移动操作系统在架构设计上的根本差异。通过详细解读两者的系统架构、开发环境、以及安全性等方面,揭示它们各自的特点及优势,为开发者选择合适的平台提供参考。
|
1月前
|
安全 Android开发 iOS开发
深入探讨Android与iOS的系统架构差异
本文旨在通过对比分析Android和iOS两大移动操作系统的系统架构,揭示它们在设计理念、安全性、应用生态及开发环境等方面的显著差异。我们将从底层架构出发,逐步剖析至用户界面层面,为开发者和科技爱好者提供一份详尽的技术参考。
38 1
|
20天前
|
开发工具 Android开发 iOS开发
Android与iOS生态差异深度剖析:技术架构、开发体验与市场影响####
本文旨在深入探讨Android与iOS两大移动操作系统在技术架构、开发环境及市场表现上的核心差异,为开发者和技术爱好者提供全面的视角。通过对比分析,揭示两者如何塑造了当今多样化的移动应用生态,并对未来发展趋势进行了展望。 ####

热门文章

最新文章