带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则

2.2 数仓升级的四个原则


要达成传统数据仓库升级成功的三个目标,我们需要的不仅仅是一套技术交付方案,更 需要一套能够指引行动的“原则”。正如雷 - 达里奥在《原则》一书中提到:原则犹如 指引行动的“灯塔”,它连接着我们的目标与行动。解决不确定性靠敏捷、解决复杂性 靠原则,越是复杂的系统越需要一套原则来保证。


过去以国外厂商为主导的数据仓库平台很好地解决了企业从零到一的取数、用数问题。 经过多年的长期迭代建设和大量投入,在现有数据仓库平台体系内积累了许多符合企业自身业务需求的经验和实践,比如在数据架构上采用分层设计思想初步实现了将数据分 类处理、建设了大量主题数据模型、建设了统一的数据交换平台,这些都是企业多年经 营的心血和结晶,是最重要的数据资产之一,数据仓库平台的升级要尽可能考虑复用企 业现有投入,把企业花了大力气积累的数据资产平滑过渡到新的数据仓库平台,避免推 倒重来的重复建设开销。


如下图所示,我们将高效实现数仓升级所需要的原则总结为“四边形”原则:


image.png


该模型可细化解读为如下四个方面:


1)原关联上下游渠道不受影响:升级数据仓库涉及到对现网上下游多种类型系统的数 据集成工作,要确保升级数仓前后业务渠道和系统功能不变、数据交换平台功能不变、 批量调度平台功能不变。


2)原数仓平台数据体系不变:原数仓平台通过分层设计的数据治理模型不变,比如 ODS、数据缓冲层、基础数据层、公共汇总层、数据集市等能在新数仓平台复用。


3)原数仓平台兼容性:具有对原有数据仓库平台一定功能上的的兼容能力,确保对原 数据仓库平台有一定的使用习惯和功能上的兼容能力。


4)采用云原生技术进行优化改造:考虑技术前瞻性、时代必然性,采用云原生组件对 传统数仓平台进行优化改造,并且改造后的业务功能不受影响。


基于以上四个原则,采用云原生组件进行传统数据仓库优化升级可以让企业在云计算时 代充分享受云计算的红利。云计算的本质是随着虚拟化技术的突破而带来了用虚拟化技 术高效使用来池化底层的硬件资源,最重要的一点是利用好云原生数据仓库的存储和计 算资源服务化特性,让用户根据自身的需求灵活选择资源规格、并根据数据量增长需求 随时变更资源配置,还能做到对上层应用无感知,达到投入资源收益最大化;此外,分 布式并行计算、透明可扩展、高可用、同城容灾等都是传统企业长期以来功能刚需,是 云上数据仓库在云上与生俱来的能力,可以让企业实现开箱即用的良好体验;因此,企 业在升级传统数仓时选型一套经过大规模验证的、用于支撑新数据仓库平台生产运行的 IaaS 和 PaaS 平台,可以让升级工作事半功倍。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
SQL 存储 缓存
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%
顺丰科技引入 Doris 替换 Presto,在内部可视化数据自助分析工具丰景台场景广泛应用。目前,顺丰临时查询业务、丰景台报表业务的 Presto 场景已经 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48% 显著收益。
135 9
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%
|
14天前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
26天前
|
存储 机器学习/深度学习 数据采集
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
数据湖与数据仓库各有优劣,湖仓一体架构成为趋势。本文解析二者核心差异、适用场景及治理方案,助你选型落地。
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
516 3
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
9月前
|
存储 人工智能 分布式计算
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享,涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景,特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案,通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后,重点讲解了Materialized Table如何简化用户操作,提升数据查询和补数体验,助力企业高效应对不同业务需求。
805 18
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
7月前
|
存储 Cloud Native 数据管理
《云原生数据仓库:原理与实践》,深入浅出助力企业数智化升级
开启AI背景下的数据管理新时代,探索云原生数据仓库的核心技术
|
7月前
|
存储 分布式计算 数据处理
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
143 1
|
9月前
|
人工智能 关系型数据库 MySQL
AnalyticDB MySQL版:云原生离在线一体化数据仓库支持实时业务决策
AnalyticDB MySQL版是阿里云推出的云原生离在线一体化数据仓库,支持实时业务决策。产品定位为兼具数据库应用性和大数据处理能力的数仓,适用于大规模数据分析场景。核心技术包括混合负载、异构加速、智能弹性与硬件优化及AI集成,支持流批一体架构和物化视图等功能,帮助用户实现高效、低成本的数据处理与分析。通过存算分离和智能调度,AnalyticDB MySQL可在复杂查询和突发流量下提供卓越性能,并结合AI技术提升数据价值挖掘能力。
206 16
|
10月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
10月前
|
SQL 存储 分布式计算
MaxCompute近实时数仓能力升级
本文介绍了阿里云自研的离线实时一体化数仓,重点涵盖MaxCompute和Hologres两大产品。首先阐述了两者在ETL处理、AP分析及Serverless场景中的核心定位与互补关系。接着详细描述了MaxCompute在近实时能力上的升级,包括Delta Table形态、增量计算与查询支持、MCQ 2.0的优化等关键技术,并展示了其性能提升的效果。最后展望了未来在秒级数据导入、多引擎融合及更高效资源利用方面的改进方向。

热门文章

最新文章