【赵渝强老师】基于PostgreSQL的MPP集群:Greenplum

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: Greenplum是基于PostgreSQL的MPP架构分布式数据库,由Master、Segment和Interconnect组成,支持海量数据并行处理。本文介绍其架构及集群安装配置全过程。

b392.png

Greenplum本质上是一个基于PostgreSQL的关系型数据库集群,实际上是由多个独立的数据库服务组合而成的一个逻辑数据库。与Oracle的RAC不同,这种数据库集群采取的是MPP(Massively Parallel Processing,大规模并行处理)架构。Greenplum最大的特点就是基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。下图展示了Greenplum的体系架构。

image.png


视频讲解如下:


Greenplum的体系架构由三部分组成:Master Host、Segment Host、Interconnect,其中每个Segment Host相当于一个独立的PostgreSQL数据库实例。下表列举了每个组成部分的功能和作用。

image.png


在了解到了Greenplum的基本知识后,本小节将通过具体的操作步骤来演示如何安装和配置Greenplum集群。

image.png


一、以下步骤使用root用户在每台主机上执行


(1)禁用SELinux和防火墙


(2)编辑文件/etc/sysctl.conf修改内核配置参数,使用下面内容覆盖原有内容。

kernel.shmmax = 500000000
kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 1
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.conf.all.arp_filter = 1
net.ipv4.ip_local_port_range = 10000 65535
net.core.netdev_max_backlog = 10000
net.core.rmem_max = 2097152
net.core.wmem_max = 2097152
vm.overcommit_memory = 2


(3)生效内核配置参数。

sysctl -p


(4)编辑文件/etc/security/limits.conf配置资源限制参数。

* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072


(5)编辑文件/etc/hosts配置主机名和IP地址的映射关系。

192.168.79.11 node11
192.168.79.12 node12
192.168.79.13 node13
192.168.79.14 node14


(6)创建用户和用户组

groupadd gpadmin
useradd -g gpadmin gpadmin
passwd gpadmin


(7)创建需要的目录,并授权给gpadmin。

mkdir -p /home/gpadmin/data       (可以只在Segment上创建)
mkdir -p /home/gpadmin/master     (可以只在Master上创建)
chown -R gpadmin:gpadmin /home/gpadmin


(8)编辑文件/etc/sudoers给gpadmin用户加上sudo权限。

gpadmin ALL=(ALL)       ALL


(9)重启服务器。


(10)安装Greenplum。

yum -y install greenplum-db-6.24.3-rhel7-x86_64.rpm

# 这一步将会把Greenplum默认安装到/usr/local/目录下。

# 这里需要配置阿里云YUM源和DNS
cd /etc/yum.repos.d/
rm -rf *
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo

# 配置DNS
vi /etc/resolv.conf
nameserver 8.8.8.8
nameserver 8.8.4.4


(11)授权给gpadmin。

chown -R gpadmin /usr/local/greenplum*
chgrp -R gpadmin /usr/local/greenplum*


(12)切换到gpadmin用户配置免密码登录

su - gpadmin
ssh-keygen -t rsa
ssh-copy-id -i .ssh/id_rsa.pub gpadmin@node11
....


二、以下步骤使用gpadmin用户在master主机上执行。


(13)在gpadmin用户主目录创建名为all_host的文件,内容为所有Greenplum主机名

node11
node12
node13
node14


(14)在gpadmin用户主目录创建名为seg_host的文件,内容为所有segment主机名

node11
node12
node13


(15)设置Greenplum环境。

source /usr/local/greenplum-db-6.24.3/greenplum_path.sh


(16)确认软件安装

gpssh -f all_host -e 'ls -l /usr/local/greenplum-db-6.24.3/'

# 如果Greenplum安装成功,应该能够在没有密码提示的情况下登录到所有主机。


(17)验证主机环境(这里需要等待一段时间)

检查点对点网络传输速度
  
# 双向同时发包,适合偶数个网口的情况
gpcheckperf -f all_host -r N -d /tmp > subnet1.out
# 单向顺序发包,适合奇数或偶数个网口的情况
gpcheckperf -f all_host -r n -d /tmp > subnet2.out
检查全矩阵多对多网络传输速度
gpcheckperf -f all_host -r M -d /tmp > subnet3.out
  
验证磁盘I/O和内存带宽性能
gpcheckperf -f seg_host -r ds -D -d /home/gpadmin/data > io.out


(18)编辑Greenplum初始化配置文件initgp_config,输入下面的内容:

SEG_PREFIX=gpseg
PORT_BASE=33000
declare -a DATA_DIRECTORY=(/home/gpadmin/data)
MASTER_HOSTNAME=node14
MASTER_PORT=5432
MASTER_DIRECTORY=/home/gpadmin/master
DATABASE_NAME=gpdb


(19)初始化数据库。

gpinitsystem -c initgp_config -h seg_host

# 输出的信息如下:
......
gpinitsystem:node14:gpadmin-[INFO]:-Greenplum Primary Segment Configuration
gpinitsystem:node14:gpadmin-[INFO]:----------------------------------------
gpinitsystem:node14:gpadmin-[INFO]:-node11  33000   node11  /home/gpadmin/data/gpseg0 2
gpinitsystem:node14:gpadmin-[INFO]:-node12  33000   node12  /home/gpadmin/data/gpseg1 3
gpinitsystem:node14:gpadmin-[INFO]:-node13  33000   node13  /home/gpadmin/data/gpseg2 4
Continue with Greenplum creation Yy|Nn (default=N):
> y  这里输入y


(20)数据库初始化完成后会自动启动数据库集群,并输出下面的信息:

gpinitsystem:node14:gpadmin-[WARN]:-*******************************************************
gpinitsystem:node14:gpadmin-[INFO]:-Greenplum Database instance successfully created
gpinitsystem:node14:gpadmin-[INFO]:-------------------------------------------------------


三、验证集群环境


(1)登录Greenplum集群

psql -d gpdb


(2)查询版本信息

gpdb=# select version();

#输出的信息如下
          version                   
-----------------------------------------------------------------------
 PostgreSQL 9.4.26 (Greenplum Database 6.24.3) on x86_64-unknown-linux-gnu
 compiled by gcc (GCC) 6.4.0, 64-bit compiled on May  3 2023 20:34:57
(1 row)


(3)查询节点信息

gpdb=# select * from gp_segment_configuration;

# 输出的信息如下:
......| port  | hostname | address |           datadir            
------+-------+----------+---------+------------------------------
......|  5432 | node14   | node14  | /home/gpadmin/master/gpseg-1
......| 33000 | node11   | node11  | /home/gpadmin/data/gpseg0
......| 33000 | node12   | node12  | /home/gpadmin/data/gpseg1
......| 33000 | node13   | node13  | /home/gpadmin/data/gpseg2
(4 rows)





相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
2月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL数据库的WAL日志与数据写入的过程
PostgreSQL中的WAL(预写日志)是保证数据完整性的关键技术。在数据修改前,系统会先将日志写入WAL,确保宕机时可通过日志恢复数据。它减少了磁盘I/O,提升了性能,并支持手动切换日志文件。WAL文件默认存储在pg_wal目录下,采用16进制命名规则。此外,PostgreSQL提供pg_waldump工具解析日志内容。
217 0
|
3月前
|
关系型数据库 PostgreSQL
【赵渝强老师】PostgreSQL的并行查询
PostgreSQL的并行查询功能通过多CPU提升查询速度,尤其适用于处理大量数据但返回少量结果的场景。它利用Leader进程、Gather节点和Worker线程协作完成查询任务,显著提高性能。本文详细解析其工作原理及适用场景,并通过实例展示开启与关闭并行查询的性能差异。
141 2
|
4月前
|
存储 关系型数据库 分布式数据库
【赵渝强老师】基于PostgreSQL的分布式数据库:Citus
Citus 是基于 PostgreSQL 的开源分布式数据库,采用 shared nothing 架构,具备良好的扩展性。它以插件形式集成,部署简单,适用于处理大规模数据和高并发场景。本文介绍了 Citus 的基础概念、安装配置步骤及其在单机环境下的集群搭建方法。
384 2
|
5月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】在PostgreSQL中访问Oracle
本文介绍了如何在PostgreSQL中使用oracle_fdw扩展访问Oracle数据库数据。首先需从Oracle官网下载三个Instance Client安装包并解压,设置Oracle环境变量。接着从GitHub下载oracle_fdw扩展,配置pg_config环境变量后编译安装。之后启动PostgreSQL服务器,在数据库中创建oracle_fdw扩展及外部数据库服务,建立用户映射。最后通过创建外部表实现对Oracle数据的访问。文末附有具体操作步骤与示例代码。
187 6
【赵渝强老师】在PostgreSQL中访问Oracle
|
5月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】在PostgreSQL中使用file_fdw访问外部文件系统
本文介绍了PostgreSQL的file_fdw扩展,它支持直接从数据库访问服务器文件系统中的文件,文件格式需为text、csv或binary。内容涵盖从编译安装扩展、配置postgresql.conf参数、重启数据库实例,到创建扩展、外部文件服务及外部表的完整流程,并通过具体示例展示如何查询外部表数据,同时附有视频讲解以帮助理解操作步骤。
178 22
|
5月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】使用postgre_fdw访问外部PostgreSQL
本文介绍了如何使用postgres_fdw扩展让PostgreSQL访问外部远端数据库数据。通过编译安装扩展、修改配置文件、重启数据库、创建扩展及外部服务器对象等步骤,最终实现本地数据库通过外部表访问远程数据。附带视频讲解,详细演示操作流程,并提醒需调整远端PostgreSQL配置以支持远程登录。
119 7
|
6月前
|
SQL 关系型数据库 数据库
【赵渝强老师】创建PostgreSQL的数据库
本文介绍了在PostgreSQL中通过SQL命令“create database”创建数据库的方法。首先查询系统目录pg_database以查看现有数据库集合,然后使用“create database”命令创建新数据库,并了解其在$PDATA/base目录下对应的文件夹生成。最后重新查询数据库集合确认创建结果,附带视频讲解便于理解操作步骤及注意事项。
161 1
|
7月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】PostgreSQL的模板数据库
在PostgreSQL中,创建新数据库时,默认通过拷贝`template1`实现。`template1`包含标准系统对象,可自定义以影响新数据库内容;而`template0`是纯净模板,仅含预定义对象且不应修改。视频讲解和代码示例展示了如何查看现有数据库信息及标识字段的作用。 ![图示](https://ucc.alicdn.com/pic/developer-ecology/yub6x2mlkqwck_398ed06397a44c2d9bfbb5ae5c90bbc0.png) [视频链接](https://www.bilibili.com/video/BV1szyfY4EQn)
128 0
【赵渝强老师】PostgreSQL的模板数据库
|
7月前
|
存储 SQL 并行计算
【赵渝强老师】达梦数据库MPP集群的架构
达梦数据库提供大规模并行处理(MPP)架构,以低成本实现高性能并行计算,满足海量数据存储和复杂查询需求。DM MPP采用完全对等无共享体系,消除主节点瓶颈,通过多节点并行执行提升性能。其执行流程包括主EP生成计划、分发任务、各EP并行处理及结果汇总返回。为确保高可用性,建议结合数据守护部署。
205 0

热门文章

最新文章

推荐镜像

更多