AnalyticDB for PostgreSQL 实时数据仓库上手指南-阿里云开发者社区

开发者社区> 陆封> 正文

AnalyticDB for PostgreSQL 实时数据仓库上手指南

简介: AnalyticDB for PostgreSQL 提供企业级数据仓库云服务,基于开源Greenplum构建,采用MPP架构,支持1000+节点PB级数据的实时分析。
+关注继续查看

云数据库AnalyticDB for PostgreSQL是一种在线MPP大规模并行处理数据仓库服务,基于Greenplum 开源数据库项目,由阿里云深度扩展。其简单易用、海量扩展、兼容部分Oracle 语法生态、支持PL/SQL,标准事务隔离级别,支持行存储和列存储、即满足高性能在线交互分析需要,也可以进行离线数据处理清晰,主要特点有:

adbpg

主要场景
scen

1.实时数仓场景
通过数据传输服务 DTS 、数据集成工具DataX、开源同步工具 rds_dbsync 、 Kettle 等,同步交易库数据 到 ADBPG,构建实时数仓。
MySQL/PG ->DTS/DataX->ADBPG

2.大数据计算分析
批量同步MaxCompute/Hadoop/Spark/SLS 数据到ADB for PG,支撑在线交互分析
大数据平台/日志->DataX/OSS -> ADBPG

3.数据湖分析场景
数据按冷热分析,支持在线查询OSS分布式云存储上的格式化数据

架构介绍:
arch

开通实例:
https://help.aliyun.com/document_detail/50200.html

客户端:
https://help.aliyun.com/document_detail/35428.html

产品文档:
ADB for PG 产品文档:https://help.aliyun.com/document_detail/49912.html

常用操作
实例规格选型指导:https://help.aliyun.com/document_detail/35406.html
表规划和设计指导:https://help.aliyun.com/document_detail/118150.html
性能调优指导:https://help.aliyun.com/document_detail/42688.html
建表语法:https://gpdb.docs.pivotal.io/500/ref_guide/sql_commands/CREATE_TABLE.html
列存压缩(压缩比3到10倍):https://help.aliyun.com/knowledge_detail/50320.html
分区键选择:https://help.aliyun.com/document_detail/120143.html
表分区(支持数字和日期类型上的多级分区):
https://help.aliyun.com/document_detail/118173.html
https://gpdb.docs.pivotal.io/43170/admin_guide/ddl/ddl-partition.html

数据写入方式总结:
数据可以采用 INSERT/COPY/OSS外表/Client SDK 写入实例:https://help.aliyun.com/document_detail/121522.html

数据导入与同步:
数据同步和迁移方法总结:https://help.aliyun.com/document_detail/97411.html
数据传输 DTS 准实时同步 RDS MySQL 数据到 ADB for PG:https://help.aliyun.com/document_detail/117295.html
数据集成DataX 按小时/天同步数据到 ADB for PG:https://help.aliyun.com/document_detail/57681.html
ADB for PG OSS 外部表文档:https://help.aliyun.com/document_detail/35457.html

ETL作业调度:
通过Dataworks 进行ADB for PG作业调度:https://yq.aliyun.com/articles/699601

PostGIS 进行地理信息分析
https://help.aliyun.com/document_detail/127419.html

社区文档:
ADB for PG 社区官方手册:http://greenplum.org/docs/
MADlib SQL机器学习库:http://madlib.apache.org/documentation.html

最佳实践:
数据倾斜的监测和实践:https://github.com/digoal/blog/blob/master/201708/20170821_02.md
负载管理(资源队列管理):https://github.com/digoal/blog/blob/master/201708/20170821_01.md

社群:
AnalyticDB for PG 在线技术支持钉钉群,包括 在线技术专家支持,新特性发布,优惠活动发布。【强烈推荐!】
dingding2

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
如何基于Flink将流式数据实时写入AnalyticDB for PostgreSQL
本文主要介绍如何通过 Flink 将流式数据实时写入 ADB PG中,并给出代码demo。 本文的Flink 为社区1.7.2版本,ADB PG为阿里云AnalyticDB for PostgreSQL 6.0版。
1823 0
基于 MaxCompute 的实时数据处理实践
MaxCompute 通过流式数据高性能写入和秒级别查询能力(查询加速),提供EB级云原生数仓近实时分析能力;高效的实现对变化中的数据进行快速分析及决策辅助。当前Demo基于近实时交互式BI分析/决策辅助场景,实现指标卡近实时BI分析、近实时市场监测、近实时趋势分析、近实时销量拆分功能。
500 0
分布式数据仓库设计
做大做强事实表,做小做弱维表; 分布式模式-维度建模新原则  (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;      (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。
778 0
前沿分享|数澜科技联合创始人&副总裁 江敏:基于云原生数据仓库AnalyticDB PostgreSQL的最佳实践
本篇内容为2021云栖大会-云原生数据仓库AnalyticDB技术与实践峰会分论坛中,数澜科技联合创始人&副总裁江敏关于“基于云原生数据仓库AnalyticDB PostgreSQL的最佳实践”的分享。
92 0
SQL2005/2008手工注入之批量爆数据for xml path
http://www.cqsec.com/read/SQL2005_2008_Injection_By_Hand_For_XML_Path ...
458 0
TiDB 作为 MySQL Slave 实现实时数据同步
由于 TiDB 本身兼容绝大多数的 MySQL 语法,所以对于绝大多数业务来说,最安全的切换数据库方式就是将 TiDB 作为现有数据库的从库接在主 MySQL 库的后方,这样对业务方实现完全没有侵入性下使用 TiDB 对现有的业务进行备份,应对未来数据量或者并发量增长带来的单点故障风险,如需上线 TiDB,也只需要简单的将业务的主 MySQL 地址指向 TiDB 即可。 下面我们详细介绍了如何将 MySQL 的数据迁移到 TiDB,并将 TiDB 作为 MySQL 的 Slave 进行数据同步。 这里我们假定 MySQL 以及 TiDB 服务信息如下: +----------------
13 0
+关注
陆封
阿里云 HybridDB for PostgreSQL 企业数仓云服务
26
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载