人柱力和佩恩六道,谁才是湖仓一体的终极形态?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 人柱力和佩恩六道,谁才是湖仓一体的终极形态?

很多小伙伴一直搞不懂什么是湖仓一体,查阅很多资料得到的都是基于不同厂商的产品和方案介绍,而非清晰的概念与行业共识,所以笔者特别策划了一篇湖仓一体的比较分析,通过《火影忍者》中两个重要角色的类比帮你瞬间搞懂湖仓一体。想必火影老粉对九尾人柱力和佩恩六道这两个角色的印象应该非常深刻,不过在此还是先给不熟悉火影的读者快速科普下。火影世界有九个巨型怪兽祸乱人间。为了世间和平,尾兽们被封印在了不同人类的体内。人柱在日本文化中被视为一种蕴藏神明力量的灵魂容器,人柱力即被尾兽附身的人,为封印尾兽而存在。人柱力可以通过驯服体内的尾兽获得巨大力量,人柱力与尾兽一荣俱荣,一损俱损。


1460000042263370.jpg

佩恩六道是由六具死者尸体改造成的六个傀儡忍者,统称为佩恩六道。每个佩恩的脸上和身体都插着能连接信号的黑棒形状的查克拉接收器,六个佩恩能共享彼此的视野。佩恩六道的操纵者长门通过背后插满黑棒作为信号和查克拉接收器操控每个佩恩。


1460000042263371.jpg



抛开角色的性格和战力,佩恩六道和人柱力最本质的区别就是物理层面的身体隔离:佩恩六道是六个傀儡忍者的战斗组合,而九尾人柱力是一个忍者肉身住了两个灵魂。二者的差别像极了目前软件行业上湖仓分体和湖仓一体概念的架构差异。在分析型数据库(OLAP)领域,曾先后出现 MPP 和 Hadoop,MPP 数据库主要用作数据仓库,Hadoop 大数据平台承担起数据湖的职能。因此,随着用户对湖和仓的要求不断提高,自然会出现湖仓协同的尝试和探索,也就形成了 MPP+Hadoop 模式,我们称之为湖仓分体模式。湖仓分体模式下的湖、仓各自独立部署,数据通过 ETL 的方式打通。正如佩恩六道,每个傀儡忍者的肉身是独立的,但视觉是共享的,由长门通过查克拉接收器进行整体操控。


1460000042263372.jpg


通过佩恩六道形象的理解了湖仓分体,九尾人柱力自然就成了湖仓一体的最佳阐释。湖仓一体架构下的湖和仓是原生一体的,物理层面部署在同一集群,共享同一份数据,没有数据冗余。正如九尾妖狐封印在鸣人(人柱力)体内,肉身层面天然一体,不可分割。

1460000042263373.jpg

将九尾人柱力比作湖仓一体,将佩恩六道比作湖仓分体,并不意味着湖仓一体和湖仓分体的“战力”也如漫画原著一样存在争议。湖仓一体与湖仓分体不仅在架构层面有着差异,架构设计理念对企业数据基础设施建设的影响也是巨大的。湖仓分体模式,也就是 MPP+Hadoop 模式的最大问题和特点就是数据孤岛,造成数据孤岛的原因有几个方面:1、技术架构原生造成的数据孤岛



1460000042263374.png


湖仓分体方案基本上是以湖、仓和其他组件构成,逻辑上为用户提供统一的数据管理,但物理层面湖和仓仍然是分离的,同一份数据在多个集群冗余存储,导致分体模式下的湖和仓各自形成数据孤岛。2、集群规模受限造成的数据孤岛


1460000042263375.png


多数的湖通过 Hadoop 构建,数仓是 MPP 数据库,当数据达到 PB 级别,由于 Hadoop 和 MPP 集群规模受限,企业往往会部署和使用多个 Hadoop 集群和多个 MPP 集群,事实上进一步造成了数据孤岛。3、高并发被迫形成的数据孤岛


1460000042263376.png

越来越多的分析应用场景导致了逐渐高涨的并发查询需求,无论是 Hadoop 还是 MPP 都法支撑这种复杂查询的并发需求。MPP 数据仓库单一集群支持的并发数仅达到几十左右,而 Hadoop 支持的并发则更低,因此一个遍历数百 TB 数据的复杂查询可能使整个系统的性能受到很大影响。为了满足高并发,企业不得不把业务分割到更多的集群中,造成更严重的数据孤岛。湖仓一体通过什么样的技术实现的?随着公有云和私有云的普及,为了保证存储和计算可以独立的弹性扩展和伸缩,数据平台的设计出现了一个崭新的架构,即存算分离架构。MPP 数据库存算耦合,而 Hadoop 不得不通过计算和存储部署在同一物理集群拉近计算与数据的距离,因此 MPP 和 Hadoop 都不再适应云平台的要求。在此阶段,Snowflake 和 OushuDB 突破了传统 MPP 和 Hadoop 的局限性,率先实现了存算完全分离,成为湖仓一体实现的关键技术。



1460000042263377.jpg



以 OushuDB 为例,实现了存算分离的云原生架构,并通过虚拟计算集群技术在数十万节点的超大规模集群上实现了高并发,保障事务支持,提供实时能力,一份数据再无数据孤岛。

1460000042263378.jpg


火影老粉对九尾人柱力和佩恩六道两角色的战力之争从未停止过,就像现阶段湖仓一体市场上的分歧持续存在着,但是正如九尾人柱力头顶主角光环一样,湖仓一体架构必将在群雄逐鹿之后的数据管理领域成为关注焦点。


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
存储 分布式计算 数据管理
不可思议!Delta Lake 打造批流一体数据仓库,颠覆传统数据管理的奇迹之作
【9月更文挑战第3天】Delta Lake 是一种高效的数据存储格式,适用于构建批流一体的数据仓库。它支持 ACID 事务,确保数据一致性;能自动处理数据模式变更,简化开发流程。本文将分四步介绍如何使用 Delta Lake 实现批流一体的数据仓库:配置环境、创建 Delta Lake 表、执行批处理与流处理操作。通过示例代码展示其强大功能,适用于电商等多种场景下的数据整合与实时分析。
52 2
|
存储 分布式计算 Cloud Native
湖仓一体概念快问快答
湖仓一体概念快问快答
799 0
湖仓一体概念快问快答
|
Web App开发 搜索推荐 物联网
“云钉一体”背后,阿里云希望改变什么?
2020年的云栖大会,“无影云电脑”和“小蛮驴”备受瞩目,但对云计算市场影响更大的应该是张建锋提出的“云钉一体”、“阿里云2.0”。
767 0
“云钉一体”背后,阿里云希望改变什么?
|
存储 机器学习/深度学习 人工智能
《达摩院2023十大科技趋势》——范式重置——存算一体
《达摩院2023十大科技趋势》——范式重置——存算一体
349 1
|
存储 人工智能 Cloud Native
再谈数据湖3.0:降本增效背后的创新原动力
越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。
13588 25
再谈数据湖3.0:降本增效背后的创新原动力
《全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密》电子版地址
全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密
160 0
《全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密》电子版地址
|
边缘计算 运维 Kubernetes
明天见!7 场高能分享直击云原生边缘计算趋势、生态和落地实践
2022 年 8 月 6 日 13:30-18:00,中国信息通信研究院、可信边缘计算推进计划、阿里云、CNCF OpenYurt 开源社区将联合举办“边缘原生”专题线上沙龙,邀请来自中国信通院云大所、CNCF 开源社区、WasmEdge 开源社区以及深信服、边无际、新华智云、Intel 等企业技术专业围绕边缘计算和云原生领域发展态势、开源社区现状、关键技术、典型应用实践等方面研讨,加速边缘原生技术落地发展。
明天见!7 场高能分享直击云原生边缘计算趋势、生态和落地实践
|
存储 运维 Cloud Native
避免让转型企业走入歧途,是时候重新理解下湖仓一体了!
随着企业数字化转型进入深水区,越来越多的企业视湖仓一体为数字变革的重要契机,湖仓一体也受到了前所未有的关注。当然,关注度越高市场上的声音也就越嘈杂,很多过时甚至错误的湖仓一体技术和理念不胫而走,很有可能将转型中的企业引入歧途,推高数据孤岛,造成资源浪费甚至错过数字化转型的战略时机。
187 0
避免让转型企业走入歧途,是时候重新理解下湖仓一体了!
|
边缘计算 人工智能 Kubernetes
深信服智能边缘计算平台与 OpenYurt 落地方案探索与实践
本文将介绍边缘计算落地的机遇与挑战,以及边缘容器开源项目 OpenYurt 在企业生产环境下的实践方案。
深信服智能边缘计算平台与 OpenYurt 落地方案探索与实践
|
运维 Kubernetes 监控
解读服务网格的2021:告别架构“大跃进”,技术生态百家争鸣
服务网格的 2021,“稳” 字当先。不管是原生社区发展,还是行业实践落地,都以 “稳定” 为第一要义。少了前几年大跃进式的架构演进、功能更迭,多了更务实、更落地的行业探索与实践,2021 年的服务网格正从当年那个狂奔的“少年”、“流量明星”,成长为真正的“实力派”,逐步进入成熟期,被更多行业、企业和标准化组织所接纳。本文将从社区进展、实践落地、行业标准、技术生态等角度回顾服务网格的 2021,帮助读者了解过去一年服务网格的整体进展,为企业选型、落地服务网格提供一些参考。
1004 0
解读服务网格的2021:告别架构“大跃进”,技术生态百家争鸣
下一篇
无影云桌面