《Greenplum企业应用实战》一导读-阿里云开发者社区

开发者社区> 华章出版社> 正文

《Greenplum企业应用实战》一导读

简介:

image

前 言

为什么写作本书

阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。
Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍。
Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手。
Greenplum有着完善的工具,相比Hive,整个体系都比较完善,不需要像Hive一样花太多的时间和精力进行改造,非常适合作为一些大型的数据仓库解决方案。
Greenplum能够方便地与Hadoop进行结合,可直接把数据写在Hadoop上,还可以直接在数据库上写MapReduce任务,并且配置简单。
从2010年毕业加入阿里巴巴B2B的数据仓库起,我就开始接触Greenplum数据库,并有幸维护了一年多的Greenplum数据库,积累了很多数据库的相关知识。Greenplum在国内的应用相对比较少,尤其是网上资料相当匮乏。在使用Greenplum的过程中,阿里巴巴遇到了很多困难,也积累了很多宝贵经验。
由于学习资料的匮乏,我和何勇有了将阿里巴巴使用Greenplum的一些经验技巧汇聚成书的想法,这样既总结和沉淀了自身知识,同时也可以给国内使用Greenplum的同行们提供一点帮助。

目 录 

第1章 Greenplum简介
1.1 Greenplum的起源和发展历程
1.2 OLTP与OLAP
1.3 PostgreSQL与Greenplum的关系
1.4 Greenplum特性及应用场景
1.5 小结
第2章 Greenplum快速入门
2.1 软件安装及数据库初始化
2.2 安装Greenplum的常见问题
2.3 畅游Greenplum
2.4 小结
第3章 Greenplum实战
3.1 历史拉链表
3.2 日志分析
3.3 数据分布
3.4 数据压缩
3.5 索引
3.6 小结
中篇 进 阶 篇
第4章 数据字典详解
4.1 oid无处不在
4.2 数据库集群信息
4.2.1 Gp_configuration和gp_segment_configuration
4.2.2 Gp_id
4.2.3 Gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置信息表转化
4.3 常用数据字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分区表信息
4.4.1 如何实现分区表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions视图及其优化
4.5 自定义类型以及类型转换
4.6 主、备节点同步的相关数据字典
4.7 数据字典应用示例
4.7.1 获取表的字段信息
4.7.2 获取表的分布键
4.7.3 获取一个视图的定义
4.7.4 查询comment(备注信息)
4.7.5 获取数据库建表语句
4.7.6 查询表上的视图
4.7.7 查询表的数据文件创建时间
4.7.8 分区表总大小
4.7.9 如何分析数据字典变化
4.7.10 获取数据库锁信息
4.8 Gp_toolkit介绍
4.9 小结

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接