初识Greenplum
Greenplum数据库是业界最快最高性价比的关系型分布式数据库,它在开源的PostgreSQL的基础上,采用MPP架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。
\
Greenplum架构
GreenPlum数据库是典型的Master/Slave架构。如下图所示,在Greenplum集群中,存在一个Master节点和多个Segment节点。
Master实例是GreenPlum数据库服务端,服务端通过端口监听客户端连接。Segment由Master分配,管理一部分数据存储进程,每个Segment都采用独立端口监听。Master实例协调所有数据库实例,分布式请求Segment并且合并从Segment返回的结果。GreenPlum数据库采用典型的Shared Nothing架构(MPP),每个节点只访问自己的本地资源(内存、存储等),节点之间的信息交互都是通过节点高速互联网络实现,这个过程一般称为数据重分配。GreenPlum数据库采用了MPP架构,其主要的优点是大规模的并行处理能力。
1) 大规模存储。GreenPlum数据库通过将数据规律地分布到多个节点上来实现大规模数据的存储,支持50PB级海量数据的存储和处理。
2) 并行处理。GreenPlum数据库通过外部表并行装载、并行备份恢复与并行查询处理实现强大的并行处理。