1、行业趋势与困惑
数据库已经在信息技术领域有了广泛的应用,我们日常的社会生活也宛如一个巨大的数 据存储仓库,每个个体产生的活动都是各种各样的数据。作为数据库的一个分支,数据 仓库概念的提出晚于数据库概念。
关于何为数据仓库,数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受: 数据仓库是一个面向主题的 (Subject Oriented)、集成的 (Integrated)、相对稳定 的 (Non-Volatile)、反映历史变化 (Time Variant) 的数据集合,用于支持管理决策 (Decision Makeing Support);我们从该经典定义中也可以看出数据仓库是对有数 据模型的、对海量结构化数据进行抽取、转换和加载(ETL)的大规模数据处理平台。
对比数据库的应用设计理念和应用目的,数据库可以被理解为是面向事务的设计,而数 据仓库是面向主题的设计;数据库存储在线交易数据,数据仓库侧重存储的多为历史数 据;针对数据库的设计秉持避免冗余的原则,而数据仓库的设计则是有意引入冗余;数 据库是为捕获数据而设计,而数据仓库是为分析数据而设计。
长期以来,国外厂商的数据仓库平台和最佳实践在过去几十年很好地支撑了金融、运营 商等重点行业的业务发展。随着各行各业数字化转型的深入推进以及监管趋势的变革, 传统数据仓库平台迎来了转型升级的重大战略阶段。
从传统的 BI(商业智能)到大数据分析,再到当今的 AI(人工智能),传统数据仓库 平台一直在演进,并且在 Gartner 年度报告中,某头部传统品牌 T 作为专注于数据分析的厂商一直出现在领导者象限,并在单一领域保持十余年的领先地位。因此,我们以 某传统数据仓库厂商翘楚 T 公司在国内某金融行业用户的发展为例,该数据仓库厂家的 传统数仓在过去数十年为该用户的数据价值挖掘方面发挥了重要贡献,主要基于其以下 优势:
1)大数据量处理性能较强 具体体现在可线性拓展并有效的实现投资保护、数据库管理和维护相对容易、第三方软 件产品丰富;
2)拥有完整的 ETL 方案且配置灵活
3)采集异构数据是,数据以 txt 文件格式,支持一段天数的保留为后续查缺补漏提供 时间基础
4)Perl 采集数据时,进行输入插入时速度快
但是随着业务高速发展积累而来的业务数据已经达到了某传统数据仓库厂商该数仓资源 容量上限、数据仓库平台多年的高水位运行带来硬件老化的高风险硬件故障,同时由于 该传统数据仓库平台本身商业策略调整导致难以继续升级的风险等多方面因素交织,使 得传统数据仓库国产化转型升级迫在眉睫。传统数据仓库平台在升级中的不足具体可归 纳为下图 1 中描述的五个维度:
具体的不足详情体现有以下方面:
1)环境搭建复杂需要专用设备,扩展时,停机时间较长
2)混合负载控制存在问题
3)各系列产品互联困难
4)价格较高导致性价比不佳
5)ETL 过程和 TD 的工具绑定紧密,对数据库的性能要求和依赖度强
6)ETL 环境搭建复杂、非图形化
7)自定义函数过程复杂,需用 C 语言编写并导入
8)数据库在线性扩展时,数据需要重分布,消耗资源量较大,耗时长。
根据我们在部分重点行业用户对于传统数据仓库转型升级方面疑虑和困惑的了解,我们 统计归类了如下四类问题:
(一)技术类问题
1. 数仓升级转型的技术难点或者挑战主要有哪些?
2. 现有数据仓库关联上下游系统众多,如何在升级过程中快速集成由不同技术体系架构 的应用系统 ?
(二)实施类问题
1. 数仓升级转型采用怎样的实施路径比较好 ?
2. 现有数仓上运行的数量众多的作业和模型,是否能尽可能减少改动平迁到新数仓上正 常运行?
(三)管理类问题
数仓升级转型需要在项目管理、组织层面如何实现配套?
(四)发展类问题
1. 目前同业在数仓升级转型实践上有哪些成功经验可借鉴?
2. 应用开发商懂业务应用但是不懂升级后新数仓技术,如何推进?
基于阿里云多年实践,本白皮书将从工程角度对以上数仓问题进行深入探索和讨论,并 予以解答和参考。