开发者社区> 德哥> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云ApsaraDB RDS用户 - OLAP最佳实践

简介: 背景 随着大数据分析型产品越来越丰富、细化,用户可能会看得眼花缭乱,如果对产品没有深度的理解,选错了岂不是劳民伤财? 本文将给大家分析一下RDS用户应该如何选择适合自己的大数据的分析产品,以及最佳实践方案。 用户环境分析 以最常用的服务举例,通常云用户会购买的产品如下 EC
+关注继续查看

背景

随着大数据分析型产品越来越丰富、细化,用户可能会看得眼花缭乱,如果对产品没有深度的理解,选错了岂不是劳民伤财?

本文将给大家分析一下RDS用户应该如何选择适合自己的大数据的分析产品,以及最佳实践方案。

用户环境分析

以最常用的服务举例,通常云用户会购买的产品如下

  • ECS,虚拟机
  • RDS,云数据库,包括(MySQL, SQL Server, PostgreSQL, PPAS, mongodb, redis, memcache, petadata)等。
  • OSS,对象存储(廉价的数据存储服务,也是阿里云各产品之间数据交换的桥梁)

大数据分析产品Greenplum的定位

  • Greenplum
    分布式并行计算数据仓库,生态非常成熟,在 运营商、金融、物流、公安、政府、互联网 等行业都有非常庞大的用户群体。

提供全面的SQL支持(包括符合SQL2008标准的OLAP分析函数),业界流行的BI软件都可以直接使用Greenplum进行在线业务分析。

支持行存储和列存储混合模式,提高分析性能;同时提供数据压缩技术,降低存储成本。支持XML、GIS地理信息、模糊字符串等丰富的数据类型。

支持 MADlib 机器学习库,为 物联网、互联网、金融、政企 等行业提供丰富的业务分析能力。

用户如果自建Hadoop,无法适应处在飞速发展期的企业数据分析需求,因为一个分析可能需要经过 分析师、ETL、运营、开发人员 多种角色,还需要部署任务,流程很长 。哪怕是小小的分析也需要耗费很长的链路和时间。
screenshot

screenshot

如果你的企业处在飞速的发展期,分析模型和需求变化会很快,Greenplum 为分析人员提供了快速的试错便利。

百TB到PB 的OLAP仓库,Greenplum无疑是非常好的选择。

对于飞速发展的企业来说,窗口期很重要,选择一个正确的数据分析产品,可以帮助用户快速试错,大大提高效率

RDS+Greenplum最佳实践

阿里云的用户应该如何利用好Greenplum呢?

还是老样子,一张图读懂如何用好Greenplum
不管你是MySQL, SQL Server, PostgreSQL, PPAS 还是mongodb,数据流都是一致统一的,大大降低了用户的使用成本。
screenshot

用户分析数据来源可能是RDS、文件。

Greenplum作为分析数据库,用户可以将Greenplum作为纯计算引擎使用,也可以作为计算和存储引擎。

因为Greenplum是通用的SQL接口,所以数据建模试错非常敏捷,数据分析师申请好数据库账号就可以大刀阔斧的建模试错了。

同时Greenplum还支持plpython、plperl、plpgsql、plR各种服务端编程语言,用户可以自行选择开发服务端的UDF。

除此之外,用户如果习惯使用R语言进行分析的话,也可以使用R直接连接Greenplum,满足隐式并行的分析需求。
screenshot

Greenplum作为纯计算引擎

Greenplum通过外部表的方式访问需要分析的数据,因此数据不需要导入Greenplum。

(PS: 计算时,自动将OSS数据载入Greenplum。)

建议用户将需要分析的数据导入到OSS(例如每天将前一天的数据导出到OSS),Greenplum可以并行的访问OSS中的数据,以充分利用带宽提高数据提取的速度。

适合用户有固定建模的场景,并且运算时间在用户接受的范围内,可以给用户节约不少成本。

Greenplum作为计算和存储引擎

数据导入到Greenplum数据库,因为少了数据提取的过程,所以分析时更快。

数据导入到Greenplum也建议走OSS通道,充分利用带宽,加快导入速度。


同时为用户提供三种不同性价比的方案

廉价方案

所有的数据都不落地,全部存储在OSS,Greenplum只存储分析结果。

大众方案

常用的数据放在Greenplum(例如最近半年),历史数据放在OSS。

用resource group隔离ETL、固定的分析任务、实时试错分析。

推荐使用大众方案
screenshot

土豪方案

所有的数据都放在Greenplum本地,将固定模型和试错环境的Greenplum分为两套环境。

Greenplum访问OSS外部表的方法

https://yq.aliyun.com/articles/31632

CREATE [READABLE] EXTERNAL TABLE tablename
( columnname datatype [, ...] | LIKE othertable )
LOCATION ('ossprotocol')
FORMAT '...'
[ ENCODING 'encoding' ]
[ LOG ERRORS ...]

ossprotocol:
   oss://oss_endpoint filepath=[folder/[folder/]...]/file_name 
    id=userossid key=userosskey bucket=ossbucket

ossprotocol:
   oss://oss_endpoint dir=[folder/[folder/]...]/file_name 
    id=userossid key=userosskey bucket=ossbucket

参考

《Greenplum资源隔离指南》
https://yq.aliyun.com/articles/57763

《三张图读懂Greenplum在企业的正确使用姿势》
https://yq.aliyun.com/articles/57736

《Greenplum 公测申请页面》
https://www.aliyun.com/product/gpdb?spm=5176.7960203.237031.39.3xWeRa

祝大家玩得开心,欢迎随时来阿里云促膝长谈业务需求 ,恭候光临。

阿里云的小伙伴们加油,努力做 最贴地气的云数据库 。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
十分钟了解阿里云数据库RDS
简介:阿里云关系型数据库(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、SQL Server、PostgreSQL、PPAS(Postgre Plus Advanced Server,高度兼容Oracle数据库)和MariaDB TX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。
10731 0
RDS MySQL 5.7三节点企业版重磅发布 企业级业务云上数据库首选
10月23日15:00 多名专家联袂讲解 https://yq.aliyun.com/live/1536 随着云计算技术的逐渐普及,使用云服务的客户行业、场景的边界也在不断地被拓宽,不断提出新的需求。
3385 0
RDS数据库与自建库的gtid主从同步
一、在centos7上部署MySQL数据库1、从MYSQL官网下载安装文件wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.
1928 0
阿里云云数据库RDS如何监控、备份及克隆实例?
监控报警及备份恢复是DBA日常工作里面用的最多的功能。这里我们来对这个功能进行一个简单的介绍。 点击监控与报警。监控类型包括资源监控及引擎监控。资源监控,包括CPU和内存利用率、磁盘空间、IOPS链接数和网络流量;引擎监控,主要针对数据库引擎内部的深度监控,由mysql里面提供TPS、QPS、命中率、读写量、缓存请求次数、日志读写以及更多的深入监控信息。
1977 0
RDS for MySQL8.0物理备份恢复到本地自建数据库
此文章是centos7下的恢复流程。 1、安装MySQL8.0(采用yum方式安装):wget https://repo.mysql.com//mysql80-community-release-el7-1.noarch.rpm yum localinstall mysql80-community-release-el7-1.noarch.rpm yum -y install yum-utils 默认安装的就是8.0版本yum install mysql-community-server 安装好了不要启动数据库。
3123 0
【阿里云新品发布·周刊】第11期:云数据库 MySQL 8.0 重磅发布,更适合企业使用场景的RDS数据库
2019年5月29日15时,阿里云云数据库 MySQL 8.0 重磅发布,2倍以上性能提升,SQL窗口函数、JSON扩展语法等企业级新功能震撼上市!主要从技术层面介绍MySQL 8.0的优势和与过去版本对比。
3304 0
小微企业阿里云最佳实践系列(二):RDS 数据库与DMS 数据库管理(数据管理)
在上一篇博文中主要介绍了 ECS 服务器与 RDS 数据库,在本篇重点为大家讲解我们的数据如何进行管理、在日常的管理过程中存在哪些风险、遇到突然事件如何通过日志分析问题以及解决问题。
2886 0
小微企业阿里云最佳实践系列(一):ECS 服务器与 RDS 数据库
本博文主要使用传统服务器架构与云服务架构进行横向对比,解决企业在搭建软件系统中所遇到等问题和痛点,以及为小微企业降低成本的同时尽可能提高软件系统的高可通、低延迟、高规范、低人力投入。
2982 0
自建Percona5.7.23同步阿里云RDS(MySQL5.6)TokuDB数据库
阿里云RDS支持TokuDB引擎,具有高压缩,高写入性能,读性能和InnoDB差不多。本文详解Percona MySQL5.7.23(包含TokuDB引擎)二进制的搭建,以及使用RDS备份文件恢复数据和搭建GTID同步到自建Percona MySQL5.7.23的过程。
2333 0
+关注
德哥
公益是一辈子的事, I am digoal, just do it.
文章
问答
来源圈子
更多
让用户数据永远在线,让数据无缝的自由流动
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
阿里云企业级自治数据库 RDS 详解
立即下载
袋鼠云基于阿里云RDS的数据库架构实践
立即下载
阿里云RDS PostgreSQL实践课 2 实时用户画像数据库实践
立即下载