附:数据仓库升级实施云上组件
数据仓库升级是一个大型数据工程再造。除了需要有合适的云原生数据仓库承载某传统数据仓库厂商的业务外,还需要有周边丰富的生态工具来确保升级工作高效完成。该传统数仓厂商往往包含上万个作业,每个作业都涉及到大量的 SQL 语句,几百到上千行不等,同时新老数仓往往很难做到百分百的语法兼容,不能单纯靠人力解决。使用工具可以有效避免大量的重复动作,以下我们重点介绍围绕云原生数据仓库 ADB PG 进行某传统数据仓库厂商升级替换中需要用到的云上实用工具组件。
(1)云原生数据仓库
首先需要一款对标某传统数据仓库厂商的云原生数据仓库——阿里云AnalyticDBPostgreSQL 版(以下简称 ADB PG),是一种大规模并行处处(MPP)数据仓库服务,可提供海量数据在线分析服务。ADB PG 主要功能特征如下:
1. 性能优异。
ADB PG 搭载自研向量执行引擎,针对火山模型的缺点和现代硬件的特点,结合向量化计算、即时编译 (Just In TIme, JIT) 等技术,专注于执行性能、特别是 OLAP 场景的执行性能提升。
2. 管理和使用成本低。
ADB PG 基于开源项目 Greenplum 构建,由阿里云深度扩展,兼容 ANSI SQL 2003,兼容 PostgreSQL/Oracle 数据库生态,支持行存储和列存储模式。既提供高性能离线数据处理,也支持高并发在线分析查询,是各行业有竞争力的PB 级实时数据仓库方案。
3. 生态丰富。
ADB PG 具备完善和开放的生态系统,支持无缝对接业界以及阿里云生态的数据管理工具,BI 报表可视化工具,ETL 工具,数据迁移工具,同时可以与业界流行的流式处理系统,日志类系统,大数据类系统,传统数仓及数据库类系统互通。
4. 低成本。
ADB PG 采用计算节点本地存储的模式,支持行式存储和列式存储,支持非易失存储、固态硬盘、机械硬盘等多种存储介质,支持单节点最大 10TB 存储空间。在此基础之上,ADB PG 进一步提供了存储压缩能力、OSS 外表存储能力和共享存储格式、存储分层等能力,满足用户在不同场景的需求。
5. 优良的可扩展性。
ADB PG 拥有良好的弹性能力,同时支持水平扩展和垂直升降配,以满足不同场景的扩展和弹性需求。
(2)一站式升级交付工作台
阿里云提供一站式的现场交付工作台 KOC,将传统数仓升级这样的大工程由人力驱动升级为流程驱动,将手工操作升级为自动化操作,通过在交付中引入 KOC 实现以下五大能力:
1. 交付流程化:
每一个交付动作串联成 SOP,建立依赖约束,交付各角色围绕 SOP严格执行到位
2. 交付职责清晰明确:
每个交付动作责任落实到人,对动作交付结果和完成时间是否符合预期负责
3. 操作质量保证:
每个交付动作有核查人,工具执行有日志记录,手工做操作有结果截图证明
4. 进度里程碑管理:
为项目设定合理的排期、里程碑,据此考察项目进度是否落后,聚焦于项目风险和卡点
5. 关键交付物归集:
将项目过程中持续产生的操作文档、技术方案、工具沉淀收集整理,作为后续复盘和新项目启动时的宝贵资产
KOC 工作台可以有效的确保数仓升级实施高标准、高质量完成,达到前述 L2 自动级及以上的实施标准,弥补统一升级实施过程中技术人员的水平差异、保证操作质量、提高项目管理质量。
带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附:数据仓库升级实施云上组件(下) https://developer.aliyun.com/article/1242439