带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑

1、行业趋势与困惑


数据库已经在信息技术领域有了广泛的应用,我们日常的社会生活也宛如一个巨大的数 据存储仓库,每个个体产生的活动都是各种各样的数据。作为数据库的一个分支,数据 仓库概念的提出晚于数据库概念。


关于何为数据仓库,数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building  the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受: 数据仓库是一个面向主题的 (Subject Oriented)、集成的 (Integrated)、相对稳定 的 (Non-Volatile)、反映历史变化 (Time Variant) 的数据集合,用于支持管理决策 (Decision Makeing Support);我们从该经典定义中也可以看出数据仓库是对有数 据模型的、对海量结构化数据进行抽取、转换和加载(ETL)的大规模数据处理平台。


对比数据库的应用设计理念和应用目的,数据库可以被理解为是面向事务的设计,而数 据仓库是面向主题的设计;数据库存储在线交易数据,数据仓库侧重存储的多为历史数 据;针对数据库的设计秉持避免冗余的原则,而数据仓库的设计则是有意引入冗余;数 据库是为捕获数据而设计,而数据仓库是为分析数据而设计。


长期以来,国外厂商的数据仓库平台和最佳实践在过去几十年很好地支撑了金融、运营 商等重点行业的业务发展。随着各行各业数字化转型的深入推进以及监管趋势的变革, 传统数据仓库平台迎来了转型升级的重大战略阶段。


从传统的 BI(商业智能)到大数据分析,再到当今的 AI(人工智能),传统数据仓库 平台一直在演进,并且在 Gartner 年度报告中,某头部传统品牌 T 作为专注于数据分析的厂商一直出现在领导者象限,并在单一领域保持十余年的领先地位。因此,我们以 某传统数据仓库厂商翘楚 T 公司在国内某金融行业用户的发展为例,该数据仓库厂家的 传统数仓在过去数十年为该用户的数据价值挖掘方面发挥了重要贡献,主要基于其以下 优势:


1)大数据量处理性能较强 具体体现在可线性拓展并有效的实现投资保护、数据库管理和维护相对容易、第三方软 件产品丰富;


2)拥有完整的 ETL 方案且配置灵活


3)采集异构数据是,数据以 txt 文件格式,支持一段天数的保留为后续查缺补漏提供 时间基础


4)Perl 采集数据时,进行输入插入时速度快


但是随着业务高速发展积累而来的业务数据已经达到了某传统数据仓库厂商该数仓资源 容量上限、数据仓库平台多年的高水位运行带来硬件老化的高风险硬件故障,同时由于 该传统数据仓库平台本身商业策略调整导致难以继续升级的风险等多方面因素交织,使 得传统数据仓库国产化转型升级迫在眉睫。传统数据仓库平台在升级中的不足具体可归 纳为下图 1 中描述的五个维度:


image.png


具体的不足详情体现有以下方面:


1)环境搭建复杂需要专用设备,扩展时,停机时间较长


2)混合负载控制存在问题


3)各系列产品互联困难


4)价格较高导致性价比不佳


5)ETL 过程和 TD 的工具绑定紧密,对数据库的性能要求和依赖度强


6)ETL 环境搭建复杂、非图形化


7)自定义函数过程复杂,需用 C 语言编写并导入


8)数据库在线性扩展时,数据需要重分布,消耗资源量较大,耗时长。


根据我们在部分重点行业用户对于传统数据仓库转型升级方面疑虑和困惑的了解,我们 统计归类了如下四类问题:


(一)技术类问题


1. 数仓升级转型的技术难点或者挑战主要有哪些?


2. 现有数据仓库关联上下游系统众多,如何在升级过程中快速集成由不同技术体系架构 的应用系统 ?


(二)实施类问题


1. 数仓升级转型采用怎样的实施路径比较好 ?


2. 现有数仓上运行的数量众多的作业和模型,是否能尽可能减少改动平迁到新数仓上正 常运行?


(三)管理类问题


数仓升级转型需要在项目管理、组织层面如何实现配套?


(四)发展类问题


1. 目前同业在数仓升级转型实践上有哪些成功经验可借鉴?


2. 应用开发商懂业务应用但是不懂升级后新数仓技术,如何推进?


基于阿里云多年实践,本白皮书将从工程角度对以上数仓问题进行深入探索和讨论,并 予以解答和参考。



相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
存储 分布式计算 关系型数据库
|
存储 分布式计算 关系型数据库
云原生数据仓库AnalyticDB MySQL湖仓版架构升级,持续释放技术红利!
云原生数据仓库AnalyticDB MySQL湖仓版架降价23%!持续提供高性价比的产品服务
|
存储 大数据 项目管理
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.1 数仓升级的三个目标
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.1 数仓升级的三个目标
282 0
|
存储 并行计算 Cloud Native
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则
246 0
|
数据处理 数据库
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(上)
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(上)
230 0
|
运维 数据可视化 项目管理
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(下)
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(下)
266 0
|
数据可视化 容灾 调度
带你读《升舱 - 数据仓库升级交付标准白皮书》——3.1 实施标准路径(上)
带你读《升舱 - 数据仓库升级交付标准白皮书》——3.1 实施标准路径(上)
325 0
|
4月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
5月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
5月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章

下一篇
DataWorks