开发者社区> 陆封> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的

简介: 本文介绍国内领先电商SaaS服务商聚水潭,基于阿里云AnalyticDB for PostgreSQL构筑海量实时数据仓库平台,服务33万商家。
+关注继续查看

聚水潭数据仓库业务介绍

上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。
来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2019年11月11日,聚水潭系统处理订单总量达 2.5亿单,成交额超400亿元。
基于阿里云的ECS和数据库产品,聚水潭构建了一整套具有竞争力的电商SaaS平台,为商家提供订单管理、仓储管理、分销管理和协同供应链等功能。并且基于财务和经营数据,为商家提供快速经营报表、分析、测算工具系统。阿里云数据库为其提供了多元化的数据库服务。其中AnalyticDB for PostgreSQL(简称 ADB PG)分析型数据库支撑了核心数据仓库的ETL作业、CRM系统和在线分析报表业务,整体数据量达到 200TB+,每天超过354万任务运行。过去几年年来,ADB PG支撑了多次电商大促考验,2019年双十一期间聚水潭数仓日数据增量5.6TB,平均写入TPS 208万,全程平稳,零业务异常。

聚水潭数仓演进及解决方案

聚水潭在数据仓库方面,从无到有探索出一整套符合电商SaaS平台的数据仓库架构,其数据仓库演进经历了从原始期到成熟期的4个阶段:

  • 原始期(2014年~2016年4月):公司初创期间,数据库以服务业务系统为主;
  • 探索期(2016年4月~2016年9月):业务规模达到一定程度,开始有数据仓库需求,使用业务数据库承担部分数据仓库功能,随着业务的增长,业务系统和数仓相互影响;
  • 自建期(2016年9月~2018年3月):基于开源Greenplum构建数据仓库,首先探索了数仓大库模式,但由于商家众多,且增长速度快,把商家分摊到中等数仓库,在商家增长的同时添加中等数仓库个数方式更符合业务逻辑和业务发展;
  • 成熟期(2018年3月~今):数据库全面拥抱阿里云,数据仓库全部采用ADB PG构建,ADB PG承载了离线批处理和在线分析查询等业务。

聚水潭数仓“一路向北”迁移及双十一保障

每年双十一对电商平台是一次全面系统稳定性考察、也是易用性和性能的最好练兵场。阿里云聚石塔电商云平台在2019年8月启动“一路向北”迁移,将华东机房服务整体搬迁到张北,提供更大扩展和高性价比服务。聚水潭ADB PG数仓在迁移过程中,即开始了双十一的规划。在“一路向北”准备期间,对聚水潭三十多个ADB PG实例进行了水位摸底、瓶颈分析和双十一业务预期调研,对业务量大、增长迅速的实例进行了针对性调整及扩容。
针对双十一当天增量数据暴增的情况,在双十一前对离线批处理和在线报表业务进行了压测,压测在变配/扩容/新购实例的基础上进行,压测效果满足业务需求。此外,ADB PG在双十一前还进行了实例备份巡检、Xid巡检、磁盘容量巡检、CPU巡检等,确保聚水潭双十一生产实例的万无一失。同时双十一当天及第二天派工程师到客户现场进行重点保障。目前聚水潭共计有ADB PG三十多个实例,总计1348 CPU核资源。

AnalyticDB for PostgreSQL支撑聚水潭大规模数仓的核心技术

阿里云AnalyticDB for PostgreSQL为采用MPP架构的分布式集群数据库,完备支持SQL 2003,高度兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。ADB PG通过行存储、列存储、多种分区表和索引等机制,可以支持海量数据的在线交付分析,也支持ETL批处理任务。如下是支持聚水潭海量数据仓库业务的关键技术点:

  1. 高压缩比列存储
    ADB PG支持数据按列存储或按列存储。对于频繁更新的数据,建议采用行存储,而对于少量更新的大宽表,可以采用列存储。列存储除了可以实现高性能的全表聚合外,还具备存储的高压缩比。在聚水潭的数据仓库里,列存储数据普遍达到4倍以上的数据压缩率,从而极大的节省空间,降低成本。
  2. 复杂SQL优化
    核心数据仓库的ETL过程,往往都是复杂的多表关联聚合,最优的执行路径会带来数量级上的性能提升。ADB PG具备完备的CBO代价优化器,同时Cascade的SQL优化框架,可以很好的将RBO规则优化同CBO代价优化相互结合,从而指定最优的分布式执行计划,保证ETL的执行性能。
  3. 高性能执行
    ADB PG支持多种计划机制,包括支持表按区间或者值进行分区,支持标准BTree索引,Bitmap位图索引等,从而保证高性能的分析计算性能。

AnalyticDB for PostgreSQL 产品技术展望

ADB PG 2019年底会上线新一代向量化计算引擎,对于标准TPC-H OLAP benchmark 查询性能提升1倍以上。当前公测中的最新版本ADB PG 6.0,HTAP能力大幅增强,标准TPC-C OLTP benchmark 支持 20w tpmC,从而对混合复杂场景,高并发 QPS 场景,性能有了质的提升。ADB PG 目前推出一元试用一个月活动,基于其完备功能,卓越性能,是阿里云平台上快速构建海量实时数仓的最优选择。 https://www.aliyun.com/product/gpdb

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
RDS-云关系行数据库的解析与实践|学习笔记(三)
快速学习RDS-云关系行数据库的解析与实践
17 0
「读写分离」RDS PostgreSQL数据库代理发布,助力降本增效
基于MaxScale的RDS数据库代理服务能够帮助客户实现数据库的读写分离架构,以低成本实现应用横向扩展能力。
351 0
云原生 - 自建数据库与云数据库RDS性能优势分析,值不值得购买?(下)
云原生 - 自建数据库与云数据库RDS性能优势分析,值不值得购买?(下)
71 0
【RDS MySQL】将Excel的数据导入数据库
您可以将Excel的数据通过数据管理服务DMS(Data Management Service)导入到RDS MySQL数据库中。
343 0
PolarDB-X 1.0-常见问题-分库分表问题-删除数据库时,PolarDB-X各物理分库是否会被自动删除?是否会影响RDS上的数据库?
在控制台上删除PolarDB-X的数据库时,只会删除之前由PolarDB-X所创建的数据库,不会影响原本在RDS上创建的数据库。
92 0
开放下载!《RDS数据库入门一本通》
RDS从入门到精通,云运维工程师不可错过的匠心之作
48127 0
【实操】数据库RDS迁移实操-DTS服务
帮您快速掌握数据库如何迁移。
1782 0
MSSQL · 最佳实践 · 实例级别数据库上云RDS SQL Server
摘要 到目前,我们完成了SQL Server备份还原专题系列八篇月报分享:三种常见的数据库备份、备份策略的制定、查找备份链、数据库的三种恢复模式与备份之间的关系、利用文件组实现冷热数据隔离备份方案、如何监控备份还原进度、阿里云RDS SQL自动化迁移上云的一种解决方案以及上个月分享的RDS SDK实现数据库迁移上阿里云,本期我们分享如何将用户线下或者ECS上自建实例级别数据库一键迁移上阿里云RDS SQL Server。
1675 0
+关注
陆封
阿里云 HybridDB for PostgreSQL 企业数仓云服务
文章
问答
文章排行榜
最热
最新
相关电子书
更多
物流平台的实时优化算法
立即下载
金融级 PostgreSQL监控及优化
立即下载
《云数据库PostgreSQL,为企业创造价值》
立即下载