聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 本文介绍国内领先电商SaaS服务商聚水潭,基于阿里云AnalyticDB for PostgreSQL构筑海量实时数据仓库平台,服务33万商家。

聚水潭数据仓库业务介绍

上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。
来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2019年11月11日,聚水潭系统处理订单总量达 2.5亿单,成交额超400亿元。
基于阿里云的ECS和数据库产品,聚水潭构建了一整套具有竞争力的电商SaaS平台,为商家提供订单管理、仓储管理、分销管理和协同供应链等功能。并且基于财务和经营数据,为商家提供快速经营报表、分析、测算工具系统。阿里云数据库为其提供了多元化的数据库服务。其中AnalyticDB for PostgreSQL(简称 ADB PG)分析型数据库支撑了核心数据仓库的ETL作业、CRM系统和在线分析报表业务,整体数据量达到 200TB+,每天超过354万任务运行。过去几年年来,ADB PG支撑了多次电商大促考验,2019年双十一期间聚水潭数仓日数据增量5.6TB,平均写入TPS 208万,全程平稳,零业务异常。

聚水潭数仓演进及解决方案

聚水潭在数据仓库方面,从无到有探索出一整套符合电商SaaS平台的数据仓库架构,其数据仓库演进经历了从原始期到成熟期的4个阶段:

  • 原始期(2014年~2016年4月):公司初创期间,数据库以服务业务系统为主;
  • 探索期(2016年4月~2016年9月):业务规模达到一定程度,开始有数据仓库需求,使用业务数据库承担部分数据仓库功能,随着业务的增长,业务系统和数仓相互影响;
  • 自建期(2016年9月~2018年3月):基于开源Greenplum构建数据仓库,首先探索了数仓大库模式,但由于商家众多,且增长速度快,把商家分摊到中等数仓库,在商家增长的同时添加中等数仓库个数方式更符合业务逻辑和业务发展;
  • 成熟期(2018年3月~今):数据库全面拥抱阿里云,数据仓库全部采用ADB PG构建,ADB PG承载了离线批处理和在线分析查询等业务。

聚水潭数仓“一路向北”迁移及双十一保障

每年双十一对电商平台是一次全面系统稳定性考察、也是易用性和性能的最好练兵场。阿里云聚石塔电商云平台在2019年8月启动“一路向北”迁移,将华东机房服务整体搬迁到张北,提供更大扩展和高性价比服务。聚水潭ADB PG数仓在迁移过程中,即开始了双十一的规划。在“一路向北”准备期间,对聚水潭三十多个ADB PG实例进行了水位摸底、瓶颈分析和双十一业务预期调研,对业务量大、增长迅速的实例进行了针对性调整及扩容。
针对双十一当天增量数据暴增的情况,在双十一前对离线批处理和在线报表业务进行了压测,压测在变配/扩容/新购实例的基础上进行,压测效果满足业务需求。此外,ADB PG在双十一前还进行了实例备份巡检、Xid巡检、磁盘容量巡检、CPU巡检等,确保聚水潭双十一生产实例的万无一失。同时双十一当天及第二天派工程师到客户现场进行重点保障。目前聚水潭共计有ADB PG三十多个实例,总计1348 CPU核资源。

AnalyticDB for PostgreSQL支撑聚水潭大规模数仓的核心技术

阿里云AnalyticDB for PostgreSQL为采用MPP架构的分布式集群数据库,完备支持SQL 2003,高度兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。ADB PG通过行存储、列存储、多种分区表和索引等机制,可以支持海量数据的在线交付分析,也支持ETL批处理任务。如下是支持聚水潭海量数据仓库业务的关键技术点:

  1. 高压缩比列存储
    ADB PG支持数据按列存储或按列存储。对于频繁更新的数据,建议采用行存储,而对于少量更新的大宽表,可以采用列存储。列存储除了可以实现高性能的全表聚合外,还具备存储的高压缩比。在聚水潭的数据仓库里,列存储数据普遍达到4倍以上的数据压缩率,从而极大的节省空间,降低成本。
  2. 复杂SQL优化
    核心数据仓库的ETL过程,往往都是复杂的多表关联聚合,最优的执行路径会带来数量级上的性能提升。ADB PG具备完备的CBO代价优化器,同时Cascade的SQL优化框架,可以很好的将RBO规则优化同CBO代价优化相互结合,从而指定最优的分布式执行计划,保证ETL的执行性能。
  3. 高性能执行
    ADB PG支持多种计划机制,包括支持表按区间或者值进行分区,支持标准BTree索引,Bitmap位图索引等,从而保证高性能的分析计算性能。

AnalyticDB for PostgreSQL 产品技术展望

ADB PG 2019年底会上线新一代向量化计算引擎,对于标准TPC-H OLAP benchmark 查询性能提升1倍以上。当前公测中的最新版本ADB PG 6.0,HTAP能力大幅增强,标准TPC-C OLTP benchmark 支持 20w tpmC,从而对混合复杂场景,高并发 QPS 场景,性能有了质的提升。ADB PG 目前推出一元试用一个月活动,基于其完备功能,卓越性能,是阿里云平台上快速构建海量实时数仓的最优选择。 https://www.aliyun.com/product/gpdb

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
15天前
|
存储 SQL 监控
实时数仓和离线数仓还分不清楚?看完就懂了
本文通俗易懂地解析了实时数仓与离线数仓的核心区别,涵盖定义、特点、技术架构与应用场景,助你快速掌握两者差异,理解数据处理的“快慢之道”。
实时数仓和离线数仓还分不清楚?看完就懂了
|
5月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
366 17
|
2月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
2月前
|
存储 传感器 数据采集
什么是实时数仓?实时数仓又有哪些应用场景?
实时数仓是一种能实现秒级数据更新和分析的系统,适用于电商、金融、物流等需要快速响应的场景。相比传统数仓,它具备更高的时效性和并发处理能力,能够帮助企业及时捕捉业务动态,提升决策效率。本文详细解析了其实现架构与核心特点,并结合实际案例说明其应用价值。
|
2月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
7月前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
1121 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
6月前
|
SQL 分布式计算 数据处理
【重磅发布】AllData数据中台核心功能:湖仓平台中心
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
7月前
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
7月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
605 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
6月前
|
SQL 消息中间件 Serverless
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
160 4

相关产品

  • 云数据库 RDS PostgreSQL 版
  • 推荐镜像

    更多