聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 本文介绍国内领先电商SaaS服务商聚水潭,基于阿里云AnalyticDB for PostgreSQL构筑海量实时数据仓库平台,服务33万商家。

聚水潭数据仓库业务介绍

上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。
来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2019年11月11日,聚水潭系统处理订单总量达 2.5亿单,成交额超400亿元。
基于阿里云的ECS和数据库产品,聚水潭构建了一整套具有竞争力的电商SaaS平台,为商家提供订单管理、仓储管理、分销管理和协同供应链等功能。并且基于财务和经营数据,为商家提供快速经营报表、分析、测算工具系统。阿里云数据库为其提供了多元化的数据库服务。其中AnalyticDB for PostgreSQL(简称 ADB PG)分析型数据库支撑了核心数据仓库的ETL作业、CRM系统和在线分析报表业务,整体数据量达到 200TB+,每天超过354万任务运行。过去几年年来,ADB PG支撑了多次电商大促考验,2019年双十一期间聚水潭数仓日数据增量5.6TB,平均写入TPS 208万,全程平稳,零业务异常。

聚水潭数仓演进及解决方案

聚水潭在数据仓库方面,从无到有探索出一整套符合电商SaaS平台的数据仓库架构,其数据仓库演进经历了从原始期到成熟期的4个阶段:

  • 原始期(2014年~2016年4月):公司初创期间,数据库以服务业务系统为主;
  • 探索期(2016年4月~2016年9月):业务规模达到一定程度,开始有数据仓库需求,使用业务数据库承担部分数据仓库功能,随着业务的增长,业务系统和数仓相互影响;
  • 自建期(2016年9月~2018年3月):基于开源Greenplum构建数据仓库,首先探索了数仓大库模式,但由于商家众多,且增长速度快,把商家分摊到中等数仓库,在商家增长的同时添加中等数仓库个数方式更符合业务逻辑和业务发展;
  • 成熟期(2018年3月~今):数据库全面拥抱阿里云,数据仓库全部采用ADB PG构建,ADB PG承载了离线批处理和在线分析查询等业务。

聚水潭数仓“一路向北”迁移及双十一保障

每年双十一对电商平台是一次全面系统稳定性考察、也是易用性和性能的最好练兵场。阿里云聚石塔电商云平台在2019年8月启动“一路向北”迁移,将华东机房服务整体搬迁到张北,提供更大扩展和高性价比服务。聚水潭ADB PG数仓在迁移过程中,即开始了双十一的规划。在“一路向北”准备期间,对聚水潭三十多个ADB PG实例进行了水位摸底、瓶颈分析和双十一业务预期调研,对业务量大、增长迅速的实例进行了针对性调整及扩容。
针对双十一当天增量数据暴增的情况,在双十一前对离线批处理和在线报表业务进行了压测,压测在变配/扩容/新购实例的基础上进行,压测效果满足业务需求。此外,ADB PG在双十一前还进行了实例备份巡检、Xid巡检、磁盘容量巡检、CPU巡检等,确保聚水潭双十一生产实例的万无一失。同时双十一当天及第二天派工程师到客户现场进行重点保障。目前聚水潭共计有ADB PG三十多个实例,总计1348 CPU核资源。

AnalyticDB for PostgreSQL支撑聚水潭大规模数仓的核心技术

阿里云AnalyticDB for PostgreSQL为采用MPP架构的分布式集群数据库,完备支持SQL 2003,高度兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。ADB PG通过行存储、列存储、多种分区表和索引等机制,可以支持海量数据的在线交付分析,也支持ETL批处理任务。如下是支持聚水潭海量数据仓库业务的关键技术点:

  1. 高压缩比列存储
    ADB PG支持数据按列存储或按列存储。对于频繁更新的数据,建议采用行存储,而对于少量更新的大宽表,可以采用列存储。列存储除了可以实现高性能的全表聚合外,还具备存储的高压缩比。在聚水潭的数据仓库里,列存储数据普遍达到4倍以上的数据压缩率,从而极大的节省空间,降低成本。
  2. 复杂SQL优化
    核心数据仓库的ETL过程,往往都是复杂的多表关联聚合,最优的执行路径会带来数量级上的性能提升。ADB PG具备完备的CBO代价优化器,同时Cascade的SQL优化框架,可以很好的将RBO规则优化同CBO代价优化相互结合,从而指定最优的分布式执行计划,保证ETL的执行性能。
  3. 高性能执行
    ADB PG支持多种计划机制,包括支持表按区间或者值进行分区,支持标准BTree索引,Bitmap位图索引等,从而保证高性能的分析计算性能。

AnalyticDB for PostgreSQL 产品技术展望

ADB PG 2019年底会上线新一代向量化计算引擎,对于标准TPC-H OLAP benchmark 查询性能提升1倍以上。当前公测中的最新版本ADB PG 6.0,HTAP能力大幅增强,标准TPC-C OLTP benchmark 支持 20w tpmC,从而对混合复杂场景,高并发 QPS 场景,性能有了质的提升。ADB PG 目前推出一元试用一个月活动,基于其完备功能,卓越性能,是阿里云平台上快速构建海量实时数仓的最优选择。 https://www.aliyun.com/product/gpdb

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
4月前
|
SQL NoSQL 关系型数据库
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
60 2
|
4月前
|
数据采集 运维 双11
实时数仓Hologres发展问题之Hologres提升实时数仓的生产级高可用性如何解决
实时数仓Hologres发展问题之Hologres提升实时数仓的生产级高可用性如何解决
74 2
|
4月前
|
存储 边缘计算 运维
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
74 2
|
1月前
|
存储 SQL 缓存
AnalyticDB 实时数仓架构解析
AnalyticDB 是阿里云自研的 OLAP 数据库,广泛应用于行为分析、数据报表、金融风控等应用场景,可支持 100 trillion 行记录、10PB 量级的数据规模,亚秒级完成交互式分析查询。本文是对 《 AnalyticDB: Real-time OLAP Database System at Alibaba Cloud 》的学习总结。
65 1
|
1月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
54 2
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
DataWorks 数据挖掘 关系型数据库
基于hologres搭建轻量OLAP分析平台解决方案评测
一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣
446 9
|
3月前
|
数据可视化 数据挖掘 OLAP
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
【9月更文第6天】开作为互联网手游公司的产品经理和项目经理,数据分析对于我们的业务至关重要。我们一直在寻找高效、可靠的数据分析解决方案,以更好地了解玩家行为、优化游戏体验和提升运营效率。近期,我们体验并部署了《基于 Hologres 搭建轻量 OLAP 分析平台》解决方案,以下是我们对该方案的评测报告。
93 12
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
|
3月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
402 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
4月前
|
存储 分布式计算 数据挖掘
实时数仓 Hologres 问题之适用于业务场景的实时数仓如何搭建
实时数仓 Hologres 问题之适用于业务场景的实时数仓如何搭建

相关产品

  • 云数据库 RDS PostgreSQL 版