《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景-阿里云开发者社区

开发者社区> 华章出版社> 正文

《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景

简介:

本节书摘来自华章出版社《Greenplum企业应用实战》一书中的第1章,第1.4节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.4 Greenplum特性及应用场景

1.4.1 Greenplum特性

(1)支持海量数据存储和处理
当今是个数据迅速增长的时代,数据量从过去的MB到GB,再到TB增长到现在的PB级规模,传统的OLTP数据库在TB级别以上的数据管理中已经捉襟见肘。Greenplum使用MPP架构,同时使用多台机器并行计算,极大地提高了对海量数据的处理能力。采取MPP架构的数据库系统才能对海量数据进行管理。
(2)高性价比
Greenplum数据库可以搭建在业界各种开放式硬件平台上,在硬件选型上有很强的自由性。
相比其他封闭式数据仓库专用系统及Hadoop分析平台,Greenplum在每TB数据量上的投资是前者的1/5甚至更低。
Greenplum licence相比Oracle RAC、Teradata等,价格低廉。
Greenplum易于维护,可以节省大量的维护成本。
(3)支持Just In Time BI
Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW)。基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析(Just In Time BI),能够让企业敏锐感知市场的变化,加快决策支持反应速度。
(4)系统易用性
Greenplum是基于PostgreSQL开发的,语法与PostgreSQL几乎一样,PostgreSQL的工具基本上都能够在Greenplum中使用,比如pgadmin等。Greenplum使用通用的PostgreSQL连接包即可与数据库连接,支持绝大部分开发语言。Greenplum的易用性具体表现如下。
支持主流的SQL语法,使用起来十分方便,学习成本低。
扩展性好,支持多语言的自定义函数和自定义类型等。
提供了大量的维护工具,使用维护起来很方便。
在Internet上有着丰富的PostgreSQL资源供用户参考。
(5)支持线性扩展
Greenplum采用MPP并行处理架构。在MPP架构中增加节点就可以线性提高系统的存储容量和处理能力。Greenplum在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。Greenplum线性扩展支持为数据分析系统将来的拓展提供了技术上的保障,使用户可根据实施需要进行容量和性能的扩展。
(6)较好的并发支持及高可用性支持
Greenplum是高可用的系统,在已有案例中最多使用了96台机器的集群MPP环境。除了硬件级的Raid技术外,Greenplum还提供数据库层Mirror机制保护,也就是将每个节点的数据在另外的节点中同步镜像,单个节点的错误不影响整个系统的使用。对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。
(7)支持MapReduce
MapReduce已经被谷歌和雅虎等互联网领先企业证明是一种大规模数据分析技术,Greenplum将这种能力提供给企业。
(8)数据库内部压缩
面对海量数据,压缩可以节省很大的空间,而且在对大数据的分析时,压缩也可能减少对磁盘的访问。Greenplum支持对数据库表进行压缩处理,从而提升数据库的性能。

1.4.2 Greenplum应用场景

Greenplum数据引擎是为新一代数据仓库和大规模分析处理而建立的软件解决方案,其最大的特点是不需要高端的硬件支持仍然可以支撑大规模的高性能数据仓库和商业智能查询。在数据仓库、商业智能的应用上,尤其在海量数据的处理方面Greenplum表现出极其优异的性能。
传统数据库侧重交易处理,关注的是多用户的同时的双向操作,在保障即时性的要求下,系统通过内存来处理数据的分配、读写等操作,存在IO瓶颈。而分析型数据库是以实时多维分析技术作为基础,对数据进行多角度的模拟和归纳,从而得出数据中所包含的信息和知识。Greenplum虽然是关系型数据库产品,但是它具有查询速度快、数据装载速度快、批量DML处理快的主要特点,而且性能可以随着硬件的添加呈线性增加,拥有非常良好的可扩展性。因此,Greenplum主要适用于面向分析的应用,比如构建企业级ODS/EDW、数据集市等。
在国内,笔者所在公司—阿里巴巴(中国)网络技术有限公司,从2008年开始引入Greenplum,将原有的Oracle RAC迁移到Greenplum上,作为数据仓库的计算中心,其中一个应用就是通过分析用户的网络点击日志进行产品的关联分析。支付宝在2008年也引入了Greenplum数据库作为数据中心。国内还有很多银行也引入了Greenplum作为基础的数据平台,如北京银行、深发展银行、中信银行信用卡中心等。在TB级的数据仓库的OLAP应用中Greenplum在易用性和性能方面有着很大的优势。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接