AnalyticDB for PostgreSQL 6.0 新版本技术解析

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 本文介绍阿里云 AnalyticDB for PG 6.0版本 OLTP及OLAP方面的特性增强,以及主要场景优势。

AnalyticDB for PostgreSQL (简称: ADB PG;中文名称:分析型数据库PostgreSQL版)为基于PostgreSQL内核的MPP数据仓库服务。其具备完备的SQL语法功能,广泛支持主流的BI、ETL工具,可以同阿里云RDS及大数据MaxCompute 无缝集成,实现快速构建云上数据仓库服务。同时广泛兼容PostgreSQL扩展生态,支持基于PostGIS 的地理空间数据分析,通过MADLib 机器学习库实现 Machine Learning in MPP。

2020年1月1日 AnalyticDB for PostgreSQL 6.0版本正式商用化。6.0版本较之前 4.3 版本在引擎内核及高吞吐事务能力上有质的提升,全面支持在线实时数仓服务,而且提供HTAP混合负载能力。

一、ADB PG 6.0技术解析

1、OLTP 高吞吐能力构筑

ADB PG 支持分布式事务及标准数据库隔离级别 (RC、RR、SI)。在share-nothing场景下,可以保证全局一致的节点间数据可见性,即对MPP有全局的更新或者写入操作时,并发查询看到的是一致的数据版本。下图展示是如何实现。

txn

ADB PG 可以实现分布式下的高并发事务处理性能,这有赖于两个关键机制,MVCC及全局死锁检测。MVCC为单机数据库经典的事务并行机制,通过数据的多版本管理,可以实现对一条数据进行并发的读和写操作。如果对一条数据进行并发更新操作时,单机引擎会通过行级锁LOCK机制来保证其执行的串行性和事务一致性。然而在分布式场景下,单节点下的行级锁可能会导致分布式死锁,为解决这个问题,6.0版本实现了高性能的分布式死锁检测机制,保证分布式条件下,也可以支持高并发的事务操作。

通过内核引擎的优化,以及分布式下并发执行的优化,ADB PG 6.0版本的 OLTP 性能有质的提升,标准TPC-C Benchmark 在保证分布式一致性下,可以支持 200k tpmC。TPC-B SELECT 达到 200k QPS,INSERT 50k tps,UPDATE,200k tps;DELETE 2000 tps。从而实现一个实例,一份数据,即可以执行高性能查询,也支持高吞吐事务处理。

同时通过上述优化,实时高并发数据写入更新能力也有大幅提升,DTS 实时同步性能 RPS 指标提升 3倍

2、OLAP 分析性能优化

复制表支持:既有AnalyticDB for PG版本支持数据按两种方式在MPP节点间分布,即按HASH分布,或者RANDOM随机均分。在 6.0版本中,对于数据仓库中小数据量的维度表,引入了新的数据分布方式,即复制表(REPLICATED)。从而对于很多复杂分析和多表关联处理时,通过对小表指定为复制分布,减少节点间的数据传输,即减少执行计划中的数据MOTION算子。

其它分析新特性:除复制表外,6.0版本还引入了多项对分析性能有显著提升的特性,包支持ZSTD高性能压缩,支持列级别的权限控制,支持SCHEMA的权限控制;支持高性能的JSONB数据格式等

二、ADB PG 6.0版本适合的场景

1、实时数据仓库服务

传统大数据方案,往往将ETL作业和交互查询部署在两套异构系统里,数据需要同步,且无法做到实时分析。在线数据仓库较传统的 T+1数据仓库,可以更好的体现数据的实时性。这里需要具备两个能力:第一,生产系统数据可以在一分钟内实时同步进入分析数仓;第二,数仓同时具备ETL批处理能力和高性能交互分析能力。

阿里云DTS服务支持 RDS MySQL/PostgreSQL等数据源秒级别延迟同步到ADB PG内。ADB PG 6.0版本的DTS写入性能较4.3版本有3倍提升,可以支持每秒同步记录RPS 5万条。同时 ADB PG 通过多种存储机制(列存表,行存表),多种索引机制(B-Tree,BitMap,Hash),多种表分区机制(Range Table Parition,List Table Partition),实现即支持复杂的 ETL 任务,也支持高性能即时查询,同时广泛支持第三方的BI报表或ETL调度工具。

edw

2、HTAP 混合负载服务

Gartner在2014年正式提出HTAP场景概念,当前主流数据库中,真正具备HTAP能力的只有Oracle,其支持对TB级别数据,进行高性能事务处理和数据分析查询的混合负载。如上面介绍AnalyticDB for PostgreSQL,可以同时支持OLTP和OLAP两种业务操作,同时采用分布式架构,可以将HTAP能力水平扩展,支持大数据量下的混合负载。
除OLTP和OLAP性能外,为保证混合负载的稳定性,ADB PG支持完备的负载管理能力,如下所示,通过资源队列,可以支持在线交易部分,和在线查询部分得到高优先级的CPU响应。

htap

三、未来展望

ADB PG在11月份信通院举行的分析型数据库测试认证上,通过了100TB TPC-DS大规模性能测试认证,同时共计640个MPP并行计算节点,超过之前MPP认证最高500节点记录。证明了 MPP 这种集群数据库产品,具备更优秀的“大”数据处理能力。

阿里云数据库团队持续投入ADB PG的内核竞争力构建,全新的向量化引擎将在 2020年Q1发布,较标准PostgreSQL引擎,计算性能提升5倍。同时为了实现更好的高吞吐能力,将在Q2发布多协调节点能力,OLTP的高并发吞吐能力将实现线性扩展,支持百万级别的 TPS 吞吐。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
106 10
|
8天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
24 4
多模态文件信息抽取:技术解析与实践评测!
|
2天前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
29 10
|
11天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
11天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
11天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
53 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
29天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
1月前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
83 7
|
1月前
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
88 3

热门文章

最新文章

相关产品

  • 云数据库 RDS PostgreSQL 版