阿里云ApsaraDB RDS用户 - OLAP最佳实践

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 背景 随着大数据分析型产品越来越丰富、细化,用户可能会看得眼花缭乱,如果对产品没有深度的理解,选错了岂不是劳民伤财? 本文将给大家分析一下RDS用户应该如何选择适合自己的大数据的分析产品,以及最佳实践方案。 用户环境分析 以最常用的服务举例,通常云用户会购买的产品如下 EC

背景

随着大数据分析型产品越来越丰富、细化,用户可能会看得眼花缭乱,如果对产品没有深度的理解,选错了岂不是劳民伤财?

本文将给大家分析一下RDS用户应该如何选择适合自己的大数据的分析产品,以及最佳实践方案。

用户环境分析

以最常用的服务举例,通常云用户会购买的产品如下

  • ECS,虚拟机
  • RDS,云数据库,包括(MySQL, SQL Server, PostgreSQL, PPAS, mongodb, redis, memcache, petadata)等。
  • OSS,对象存储(廉价的数据存储服务,也是阿里云各产品之间数据交换的桥梁)

大数据分析产品Greenplum的定位

  • Greenplum
    分布式并行计算数据仓库,生态非常成熟,在 运营商、金融、物流、公安、政府、互联网 等行业都有非常庞大的用户群体。

提供全面的SQL支持(包括符合SQL2008标准的OLAP分析函数),业界流行的BI软件都可以直接使用Greenplum进行在线业务分析。

支持行存储和列存储混合模式,提高分析性能;同时提供数据压缩技术,降低存储成本。支持XML、GIS地理信息、模糊字符串等丰富的数据类型。

支持 MADlib 机器学习库,为 物联网、互联网、金融、政企 等行业提供丰富的业务分析能力。

用户如果自建Hadoop,无法适应处在飞速发展期的企业数据分析需求,因为一个分析可能需要经过 分析师、ETL、运营、开发人员 多种角色,还需要部署任务,流程很长 。哪怕是小小的分析也需要耗费很长的链路和时间。
screenshot

screenshot

如果你的企业处在飞速的发展期,分析模型和需求变化会很快,Greenplum 为分析人员提供了快速的试错便利。

百TB到PB 的OLAP仓库,Greenplum无疑是非常好的选择。

对于飞速发展的企业来说,窗口期很重要,选择一个正确的数据分析产品,可以帮助用户快速试错,大大提高效率

RDS+Greenplum最佳实践

阿里云的用户应该如何利用好Greenplum呢?

还是老样子,一张图读懂如何用好Greenplum
不管你是MySQL, SQL Server, PostgreSQL, PPAS 还是mongodb,数据流都是一致统一的,大大降低了用户的使用成本。
screenshot

用户分析数据来源可能是RDS、文件。

Greenplum作为分析数据库,用户可以将Greenplum作为纯计算引擎使用,也可以作为计算和存储引擎。

因为Greenplum是通用的SQL接口,所以数据建模试错非常敏捷,数据分析师申请好数据库账号就可以大刀阔斧的建模试错了。

同时Greenplum还支持plpython、plperl、plpgsql、plR各种服务端编程语言,用户可以自行选择开发服务端的UDF。

除此之外,用户如果习惯使用R语言进行分析的话,也可以使用R直接连接Greenplum,满足隐式并行的分析需求。
screenshot

Greenplum作为纯计算引擎

Greenplum通过外部表的方式访问需要分析的数据,因此数据不需要导入Greenplum。

(PS: 计算时,自动将OSS数据载入Greenplum。)

建议用户将需要分析的数据导入到OSS(例如每天将前一天的数据导出到OSS),Greenplum可以并行的访问OSS中的数据,以充分利用带宽提高数据提取的速度。

适合用户有固定建模的场景,并且运算时间在用户接受的范围内,可以给用户节约不少成本。

Greenplum作为计算和存储引擎

数据导入到Greenplum数据库,因为少了数据提取的过程,所以分析时更快。

数据导入到Greenplum也建议走OSS通道,充分利用带宽,加快导入速度。


同时为用户提供三种不同性价比的方案

廉价方案

所有的数据都不落地,全部存储在OSS,Greenplum只存储分析结果。

大众方案

常用的数据放在Greenplum(例如最近半年),历史数据放在OSS。

用resource group隔离ETL、固定的分析任务、实时试错分析。

推荐使用大众方案
screenshot

土豪方案

所有的数据都放在Greenplum本地,将固定模型和试错环境的Greenplum分为两套环境。

Greenplum访问OSS外部表的方法

https://yq.aliyun.com/articles/31632

CREATE [READABLE] EXTERNAL TABLE tablename
( columnname datatype [, ...] | LIKE othertable )
LOCATION ('ossprotocol')
FORMAT '...'
[ ENCODING 'encoding' ]
[ LOG ERRORS ...]

ossprotocol:
   oss://oss_endpoint filepath=[folder/[folder/]...]/file_name 
    id=userossid key=userosskey bucket=ossbucket

ossprotocol:
   oss://oss_endpoint dir=[folder/[folder/]...]/file_name 
    id=userossid key=userosskey bucket=ossbucket

参考

《Greenplum资源隔离指南》
https://yq.aliyun.com/articles/57763

《三张图读懂Greenplum在企业的正确使用姿势》
https://yq.aliyun.com/articles/57736

《Greenplum 公测申请页面》
https://www.aliyun.com/product/gpdb?spm=5176.7960203.237031.39.3xWeRa

祝大家玩得开心,欢迎随时来阿里云促膝长谈业务需求 ,恭候光临。

阿里云的小伙伴们加油,努力做 最贴地气的云数据库 。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
容灾 关系型数据库 数据库
阿里云RDS服务巴黎奥运会赛事系统,助力云上奥运稳定运行
2024年巴黎奥运会,阿里云作为官方云服务合作伙伴,提供了稳定的技术支持。云数据库RDS通过备份恢复、实时监控、容灾切换等产品能力,确保了赛事系统的平稳运行。
 阿里云RDS服务巴黎奥运会赛事系统,助力云上奥运稳定运行
|
1月前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
2月前
|
关系型数据库 MySQL 数据库
MySQL数据库:基础概念、应用与最佳实践
一、引言随着互联网技术的快速发展,数据库管理系统在现代信息系统中扮演着核心角色。在众多数据库管理系统中,MySQL以其开源、稳定、可靠以及跨平台的特性受到了广泛的关注和应用。本文将详细介绍MySQL数据库的基本概念、特性、应用领域以及最佳实践,帮助读者更好地理解和应用MySQL数据库。二、MySQL
151 5
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
1月前
|
缓存 监控 大数据
构建高可用AnalyticDB集群:最佳实践
【10月更文挑战第25天】在大数据时代,数据仓库和分析平台的高可用性变得尤为重要。作为阿里巴巴推出的一款完全托管的PB级实时数据仓库服务,AnalyticDB(ADB)凭借其高性能、易扩展和高可用的特点,成为众多企业的首选。本文将从我个人的角度出发,分享如何构建和维护高可用性的AnalyticDB集群,确保系统在各种情况下都能稳定运行。
39 0
|
1月前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
57 0
|
2月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
250 0
|
3月前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
142 7
|
3月前
|
运维 数据挖掘 OLAP
阿里云Hologres:一站式轻量级OLAP分析平台的全面评测
在数据驱动决策的今天,企业对高效、灵活的数据分析平台的需求日益增长。阿里云的Hologres,作为一站式实时数仓引擎,提供了强大的OLAP(在线分析处理)分析能力。本文将对Hologres进行深入评测,探讨其在多源集成、性能、易用性以及成本效益方面的表现。
171 7

相关产品

  • 云数据库 RDS MySQL 版