阿里云数据库产品HybridDB简介——OLAP数据库,支持行列混合存储,基于数据库Greenplum的开源版本,并且吸收PostgreSQL精髓

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
PolarDB Agent Flow,2核4GB
RDS Agent(兼容OpenClaw),2核4GB
简介:

为什么会有HybridDB的诞生?它经历了怎样的研发历程?它的应用场景和情况是怎样的?带着这些问题,InfoQ对阿里云的数据库专家兼Postgres中国社区/中国用户会主席萧少聪先生进行了采访,以下文字整理自采访文稿。

业界早期使用数据时,尤其是OLTP场景下,通常选择非分布式的关系型数据库,如MySQL、SQLServer、Oracle、PostgreSQL即可满足大部份的需求。

OLAP中主流数据库遭遇瓶颈

从技术角度而言,OLAP场景,不仅涉及的数据量大而且要求分析的结果实时返回,对应的SQL查询十分复杂。如何做到技术性能和业务功能权衡,对于数据库而言是一个重大考验。

已有的两个主流开源数据库,MySQL和PostgreSQL都是针对OLTP环境的,在OLAP在线分析需求下它们的性能明显不足。特别是MySQL在大规模分析操作时多表Join的性能是当前互联网用户的一大痛点。

在OLAP发展的早期,其操作并没有专门的数据库支撑,直接就与OLTP业务放在同一个数据库中完成。但随着业务量的增加,OLAP每次要分析的数据量越来越大,这样的分析操作执行时就会导致数据库的业务交易下降。因此业界开始将OLTP、OLAP拆分成两套不同的数据库进行处理,OLTP数据库中的数据通过ETL软件持续或定期抽取到OLAP数据库,让业务交易与报表分析进行分离。

而新的问题很快又到来了,联互网爆发后数据量也激增,OLTP的业务库可以保存比较少的数据量如3个月到半年,但OLAP的数据量将可能要保存几年甚至更多。单台服务服务的性能上限已经无法满足OLAP分析数据持续增加所带来的压力,因此催生出如阿里HybridDB这样的大规模并行处理(Massive Parallel Processing,MPP)分布式OLAP数据库。

新的分布式OLAP数据库

在提供HybridDB方案之前,我们会给用户提供如分库分表等处理方案,但这样的方案对于SQL查询内容不确定的OLAP业务并不友好。当用户需要进行多个数据表的组合操作时,由于数据需要跨服务器进行大规模的聚合,性能十分低下。这个问题在HybridDB中也同样会出现,所幸的是,Greenplum Database开源项目中借助平行的数据扩展技术及interconnect的专用协议,通过自定义的网络协议有效地解决了网络瓶颈的问题。这也是我们选择基于Greenplum Database开源项目的原因之一。

简单来说,MPP是一种平衡的性能扩张模型。以HybridDB的模型为列,每个节点可存放的数据量及计算能力为1Core / 8GB Mem / 80GB SSD(即将开放500GB HDD版本),如果用户80GB以内的数据在这样的计算单元中,可以在毫秒内查询出结果,那将数据计算能力及容量平衡扩展到上百TB甚至PB时,用户查询“等比”数据量时依然可以达到毫秒级别。

MPP分布式OLAP数据库系统架构已经发展了有10多年之久,十分成熟,当前使用这类系统的企业都是中大型公司。OLAP是一个很大的市场,有别于如同EMR(Hadoop)的大数据分析市场,它要求海量数据的SQL查询在几分钟、几秒,甚至毫秒级返回结果,因此对于服务器、网络及数据库软件本身的架构都提出了很高的要求。

技术攻坚之路

2015年10月Greenplum Database由Pivotal开源后,阿里云PostgreSQL内核团队便开始进行深度的调研,于2016年开始进行产品的研发工作,到今年7月份我们对用户开放了公测邀请并准备正式商业化的工作。

揭秘HybridDB方案

HybridDB基于开源Greenplum Database(内核实际上就是PostgreSQL)项目的MPP分布式数据仓库,与PostgreSQL不同,HybridDB可以实现横向扩展,提供用户需要的百GB到百TB的高性能分析能力。

HybridDB最大的三个特色:

  1. 基于成熟的GPDB及PostgreSQL生态,软开发合作伙伴进行一次软件开发,即可在云上云下同样使用,免去迁移的烦恼,更容易实现混合云中的数据分析支持。
  2. 支持多种混合数据类型(多达23种)的SQL统一查询,包括:

    传统数据类型:字符、数字、浮点、日期等;

    非结构化数据:JSON、XML;

    特殊功能数据类型:GIS地理信息数据、IPv4/v6网络数据、HyperLogLog预估分析数据。

  3. 支持混合的数据存储,包括:行存、列存、SSD/HDD本地存储、OSS云存储,未来更将支持“存储计算分离”,用户可以更为灵活在进行资源的购买及分配。

那么,HybridDB在OLAP读取中都做了哪些优化?

优化方面从引擎底层我们针对阿里云的硬件及网络特点,进行的源码级别的深度优化,特别是在网络调度上进行了针对性的处理,提高跨网络数据节点的吞吐能力。同时在用户业务层中对特殊数据类型进行扩展,如果物联网中的JSON数据类型是Greenplum Database所不支持的,HybridDB通过直接支持这一数据类型,避免用户自行进行非结果化的解析,同时提供基于函数的JSON属性级索引,提高数据库处理JSON的检索性能。

数据存储

1、本地存储

HybridDB的本地存储分为行储存和列存储两种方式。行存储和列存储各有长处。行存适合于近线数据的分析,特别是要求查询结果返回表中某几跳符合条件记录的所有字段的情况。列存适合用于数据的统计分析。

那么两者的适用情况是怎样的呢?举例说明:在行存的情况下,如果一个用于存放用户的表中有20个字段,但我们只要统计用户年龄的平均值,这时数据库要对用户表进行全表扫描,遍历所有行的所有数据;但如果使用列存,数据库只要定位到这一列,然后只扫描这一列的数据就可以得到所有的结果,性能上相比列存理论上就会直接快20倍,加上HybridDB将数据分布式存储到多个计算节点,性能将再次提高几倍,达到100倍性能提升是十分常见。

HybridDB是混合两者搭配使用的。用户可以配搭进行使用,定义不同的表使用不同的存储方式,让用户适应不同的业务场景,并进行数据生态周期的管理。如6个月内的数据可能要经常获取全行数据,因此使用行存储,6个月后的数据通过列存储进行保存提高分析汇总操作的查询性能。

2、外部存储

高性能的数据分析是在本地存储完成的。OSS作为外部存储,HybridDB可以将OSS中的CSV格式化文本作为外部表进行数据查询,同时还可以对这些外部表进行写入操作。写入到OSS的数据可以提供给RDS for PostgreSQL或EMR等云数据库服务进行读取及处理,因此也同时实现了数据的无缝打通。

同时我们也将支持“存储计算分析”的模型,在这样模型上我们平时甚至可以只通过OSS进行数据的存储,当需要进行计算时再开启足够的计算节点进行数据分析处理,计算处理结束后关闭计算节点资源以节省使用成本。

。。。

 

转自:http://www.infoq.com/cn/news/2016/12/MySQL-PostgreSQL-Greenplum









本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6483407.html,如需转载请自行联系原作者

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
8月前
|
SQL 关系型数据库 MySQL
阿里云RDS云数据库全解析:产品功能、收费标准与活动参考
与云服务器ECS一样,关系型数据库RDS也是很多用户上云必买的热门云产品之一,阿里云的云数据库RDS主要包含RDS MySQL、RDS SQL Server、RDS PostgreSQL、RDS MariaDB等几个关系型数据库,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,帮助您解决数据库运维的烦恼。本文为大家介绍阿里云的云数据库 RDS主要产品及计费方式、收费标准以及活动等相关情况,以供参考。
|
11月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储上oracle数据库数据恢复案例
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。 通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。 将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
|
11月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
9月前
|
人工智能 数据挖掘 数据库
通义灵码产品演示: 数据库设计与数据分析
本演示展示如何使用通义灵码进行数据库设计与数据分析。通过SQLite构建电商订单表,利用AI生成表结构、插入样本数据,并完成多维度数据分析及可视化图表展示,体现AI在数据库操作中的高效能力。
802 8
|
存储 关系型数据库 数据库
高性能云盘:一文解析RDS数据库存储架构升级
性能、成本、弹性,是客户实际使用数据库过程中关注的三个重要方面。RDS业界率先推出的高性能云盘(原通用云盘),是PaaS层和IaaS层的深度融合的技术最佳实践,通过使用不同的存储介质,为客户提供同时满足低成本、低延迟、高持久性的体验。
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
550 12
|
人工智能 关系型数据库 分布式数据库
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
|
存储 SQL 安全
【赵渝强老师】达梦数据库的物理存储结构
本文介绍了达梦数据库的存储结构及各类物理文件的作用。达梦数据库通过逻辑和物理存储结构管理数据,包含配置文件(如dm.ini、sqllog.ini)、控制文件(dm.ctl)、数据文件(*.dbf)、重做日志文件(*.log)、归档日志文件、备份文件(*.bak)等。配置文件用于功能设置,控制文件记录数据库初始信息,数据文件存储实际数据,重做日志用于故障恢复,归档日志增强数据安全性,备份文件保障数据完整性,跟踪与事件日志辅助问题分析。这些文件共同确保数据库高效、稳定运行。
734 0
|
11月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。

推荐镜像

更多