Citus 简介,将 Postgres 转换为分布式数据库

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介: Citus 简介,将 Postgres 转换为分布式数据库

什么是 Citus?



CitusPostgres 的开源扩展,它在集群中的多个节点上分布数据和查询。因为 CitusPostgres 的扩展(不是 fork),所以当您使用 Citus 时,您也在使用 Postgres。您可以利用最新的 Postgres 功能、工具和生态系统。

CitusPostgres 转换为具有分片、分布式 SQL 引擎、引用表和分布式表等功能的分布式数据库。 Citus 将并行性、在内存中保留更多数据和更高的 I/O 带宽相结合,可以显着提高多租户 SaaS 应用程序、面向客户的实时分析仪表板和时间序列工作负载的性能。


获得 Citus 的三种方法:


  1. 开源:您可以下载 Citus 开源代码,或访问 GitHub 上的 Citus 存储库。
  1. 企业软件:Citus Enterprise 可作为软件订阅以及 24x7 支持,供那些想要手动管理 Citus 的人使用。
  2. 托管数据库服务:CitusAzure 上以 Hyperscale (Citus) 的形式提供,这是 Azure Database for PostgreSQL 托管服务中的内置部署选项。


Citus 可以扩展多远?


Citus 通过添加工作节点进行水平扩展,并通过升级 workers/coordinator 进行垂直扩展。在实践中,我们的客户已经达到了以下规模,还有更大的增长空间:


  • Algolia
  • 每天摄取 5-10B
  • Heap
  • 700+ 亿次事件
  • 70 节点 Citus 数据库集群上的 1.4PB 数据
  • Chartbeat
  • 每月添加 >2.6B 行数据
  • Pex
  • 每天更新 80B
  • 20 节点 Citus 数据库集群是 Google Cloud
  • 2.4TB 内存、1280 核、80TB 数据
  • …计划增长到 45 个节点
  • Mixrank
  • 1.6PB 的时间序列数据


何时使用 Citus



多租户数据库


大多数 B2B 应用程序已经在其数据模型中内置了租户、客户或帐户的概念。在此模型中,数据库为许多租户提供服务,每个租户的数据都与其他租户分开。

Citus 为该工作负载提供了完整的 SQL 覆盖,并支持将您的关系数据库扩展到 100K+ 租户。 Citus 还为多租户添加了新功能。例如,Citus 支持租户隔离,为大租户提供性能保证,并具有引用表的概念,以减少跨租户的数据重复。

这些功能允许您在多台机器上扩展租户数据,并轻松添加更多 CPU、内存和磁盘资源。此外,在多个租户之间共享相同的数据库模式可以有效地利用硬件资源并简化数据库管理。


Citus 对于多租户应用程序的一些优势:


  • 快速查询所有租户
  • 数据库中的分片逻辑,而不是应用程序
  • 在单节点 PostgreSQL 中保存的数据比可能的多
  • 保持高并发下的性能
  • 跨客户群的快速指标分析
  • 轻松扩展以处理新客户注册
  • 隔离大小客户的资源使用情况


实时分析


Citus 支持对大型数据集的实时查询。通常,这些查询发生在快速增长的事件系统或具有时间序列数据的系统中。示例用例包括:


  • 具有亚秒级响应时间的分析仪表板
  • 关于正在展开的事件的探索性查询
  • 大型数据集归档和报告
  • 使用漏斗、细分和同类群组查询分析会话

Citus 的优势在于它能够并行化查询执行并随集群中工作数据库的数量线性扩

展。 Citus 在实时应用方面的一些优势:


  • 随着数据集的增长保持亚秒级响应
  • 实时分析发生的新事件和新数据
  • 并行化 SQL 查询
  • 横向扩展而不放弃 SQL
  • 保持高并发下的性能
  • 快速响应仪表板查询
  • 使用一个数据库,而不是拼凑
  • 丰富的 PostgreSQL 数据类型和扩展


使用注意事项


Citus 扩展了 PostgreSQL 的分布式功能,但它不是扩展所有工作负载的直接替代品。高性能 Citus 集群需要考虑数据模型、工具和所使用的 SQL 功能的选择。


以下是考虑工具和 SQL 功能的一个好方法:如果您的工作负载与此处描述的用例一致,并且您碰巧遇到了不受支持的工具或查询,那么通常有一个很好的解决方法。


当 Citus 不合适时


一些工作负载不需要强大的分布式数据库,而另一些工作负载则需要工作节点之间的大量信息流。在第一种情况下,Citus 是不必要的,而在第二种情况下,通常性能不佳。这里有些例子:


  • 当单节点 Postgres 可以支持您的应用程序并且您不希望增长时
  • 离线分析,无需实时摄取或实时查询
  • 不需要支持大量并发用户的分析应用程序
  • 返回大量数据的 ETL 结果而不是摘要的查
相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
12天前
|
分布式计算 Java Hadoop
杨校老师课堂之分布式数据库HBase的部署和基本操作
杨校老师课堂之分布式数据库HBase的部署和基本操作
22 0
|
29天前
|
存储 缓存 NoSQL
浅谈分布式数据库系统
【6月更文挑战第4天】该文探讨了数据库管理系统的解决方案,建议使用Redis和MQ作为缓存和中转,减轻数据库压力。分布式系统需透明处理数据位置,解决查询执行和正确性问题。了解这些底层设计有助于应对性能挑战。
40 8
浅谈分布式数据库系统
|
9天前
|
存储 搜索推荐 Java
微服务SpringCloud ES分布式全文搜索引擎简介 下载安装及简单操作入门
微服务SpringCloud ES分布式全文搜索引擎简介 下载安装及简单操作入门
23 2
|
28天前
|
监控 NoSQL 数据建模
使用Apache Cassandra进行分布式数据库管理的技术实践
【6月更文挑战第5天】本文探讨了使用Apache Cassandra进行分布式数据库管理的技术实践。Cassandra是一款高性能、可扩展的NoSQL数据库,适合大规模、高并发场景。文章介绍了其高可扩展性、高性能、高可用性和灵活数据模型等核心特性,并详细阐述了环境准备、安装配置、数据建模与查询以及性能优化与监控的步骤。通过本文,读者可掌握Cassandra的运用,适应不断增长的数据需求。
|
26天前
|
存储 安全 关系型数据库
|
4天前
|
网络协议 安全 分布式数据库
技术分享:分布式数据库DNS服务器的架构思路
技术分享:分布式数据库DNS服务器的架构思路
10 0
|
26天前
|
SQL 安全 关系型数据库
MySQL数据库——事务-简介、事务操作、四大特性、并发事务问题、事务隔离级别
MySQL数据库——事务-简介、事务操作、四大特性、并发事务问题、事务隔离级别
18 1
|
5天前
|
关系型数据库 MySQL 数据库
深入OceanBase分布式数据库:MySQL 模式下的 SQL 基本操作
深入OceanBase分布式数据库:MySQL 模式下的 SQL 基本操作
|
5天前
|
存储 分布式数据库 数据库
深入OceanBase内部机制:分区构建高可用、高性能的分布式数据库基石
深入OceanBase内部机制:分区构建高可用、高性能的分布式数据库基石
|
5天前
|
存储 关系型数据库 MySQL
深入OceanBase内部机制:高性能分布式(实时HTAP)关系数据库概述
深入OceanBase内部机制:高性能分布式(实时HTAP)关系数据库概述