三张图读懂Greenplum在企业的正确使用姿势

本文涉及的产品
RDS Agent(兼容OpenClaw),2核4GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
PolarDB Agent Express,2核4GB
简介: 第一张 老外通常如何使用数据仓库 数据仓库的使用人员通常是数据分析师,一个成熟的分析模型的建立,可能需要多次的数据模型分析试错。 通常试错不会允许直接在任务库中执行,因为很容易干扰任务库的任务处理,你一定不想因为试错导致报表不能按时输出吧,相信老板会让你好看的。 因此老外通常会将数据

背景

很多使用数据仓库的朋友可能都有过这样的困惑,为什么数据仓库的资源经常会出现不可控,或者抢用的情况,严重的甚至影响正常的作业任务,导致不能按时输出报表或者分析结果。

这里的原因较多,最主要的原因可能还是使用姿势不对,MPP是用极资源的产品,一伙人在抢资源当然跑不好。你想想一个跑道能让多架飞机同时起飞或降落吗?

第一张

老外通常如何使用数据仓库

数据仓库的使用人员通常是数据分析师,一个成熟的分析模型的建立,可能需要多次的数据模型分析试错。

通常试错不会允许直接在任务库中执行,因为很容易干扰任务库的任务处理,你一定不想因为试错导致报表不能按时输出吧,相信老板会让你好看的。

因此老外通常会将数据仓库分为两种,一种是跑任务的大数仓,所有的数据都在大数仓里面。

分析人员使用的是独立的小型分析库,如果要试错的话,向DBA提交测试数据的ETL申请,拿到数据后进行分析建模,在多次数据模型分析试错后找到成熟的数据分析模型,再提交到大数仓去RUN 任务。

由于分析人员可能较多,不同的分析人员可能会有同一份数据的分析需求,所以这种模式造成了大量的重复试错数据。每个分析师都要问DBA要数据,也会很痛苦。
screenshot

第二张

LOFTD消灭重复试错数据

LOFTD是一个独立的具备处理predict, project filter请求的文件服务器。

将LOFTD作为一个外部的数据源,读写非常方便。

数据分析人员向DBA提交数据抽取请求,数据被抽取到LOFTD,小型分析库通过外部表的方式访问LOFTD。

并且LOFTD可以共享给多个小型分析库使用,所以消除了数据的冗余。
screenshot

第三张

阿里云的用户如何正确使用ApsaraDB for Greenplum

阿里云的用户可以购买SATA+SSD混合存储的Greenplum,以非常高的性价比获得PB级的数据仓库(公测阶段只提供纯SSD的版本)。

用户可以使用ETL工具,或者mysql2pgsql, pgsql2pgsql将数据增量或全量的从MySQL或PgSQL同步到Greenplum。

成熟的分析任务可以跑在这个大的Greenplum数仓上面。

另外,分析人员要数据分析模型试错的话,可以将数据模型分析试错的样本数据导出到OSS。 Greenplum或者RDS PG可以通过OSS外部表直接访问试错数据,进行分析。

ETL可以选择阿里云市场中的ETL服务或者用户自己使用开源的ETL工具,都是非常方便的。

如果试错的数据量(样本数据)在百GB的规模,建议可以直接使用RDS PG
。 9.6还会推出CPU并行计算的功能,处理百GB毫无压力。 数据模型分析试错数据再大一点的话,建议还是购买小型的Greenplum。

这样就可以做到跑成熟的数据分析模型,试错两不误。

如果用户 为了节约成本一定要将成熟模型和试错放到一个数据仓库来跑的话,如果你不想因为任务跑不出来被老板批,建议错开任务的时间。
screenshot

小结

  1. 正确使用数仓(不管是Greenplum还是其他的数仓),必须要搞清楚跑成熟任务和分析人员模型试错是不要混到一起跑的,相互干扰,时间还漫长。 分析人员很贵的,多加几台机器,把模型试错和成熟任务分开,可以给分析人员灵活的发挥空间,又不耽误跑成熟模型,何乐不为呢。

祝大家玩得开心,欢迎随时来阿里云促膝长谈业务需求 ,恭候光临。

阿里云的小伙伴们加油,努力做 最贴地气的云数据库 。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
机器学习/深度学习 算法 决策智能
选址问题-精确重心法和遗传算法
选址问题-精确重心法和遗传算法
2772 0
|
4月前
|
存储 弹性计算 固态存储
2026年阿里云服务器4核8G配置收费标准与活动价格,最优购买方案与价格对比
2026年阿里云4核8G云服务器提供多样化实例选择,价格跨度显著。经济型e实例年费约1477元起,适配个人网站、开发测试等轻量场景;通用算力型u2a实例年费约898元起,以高性价比支撑企业通用业务;计算型c9i实例年费约3147元起,聚焦高性能计算场景。用户可通过新客专属折扣、九代实例年付6.4折、领券满减等策略降低成本,结合带宽降配+CDN加速、弹性云盘等技巧进一步优化成本,适配小型网站、电商后台、在线游戏等多场景需求。
|
SQL 双11 流计算
Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析
通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。
|
4月前
|
SQL 存储 运维
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
面对日益增长的业务体量与复杂多变的分析需求,选用一个高效、可靠的数据库系统,已成为支撑业务稳健发展与快速创新的关键。Apache Doris 以其出色的性能表现与高度灵活的架构,成为众多场景下的优选方案,详情阅读原文。
258 1
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
|
7月前
|
人工智能 缓存 数据可视化
复盘:利用 Coze+Kimi 搭建自动财报分析“金融助理”的方法
本文手把手教你如何利用Coze与Kimi搭建智能财报分析助手。从环境部署、工作流设计到专业提示词编写,完整展示5分钟内实现财务指标计算、趋势分析和风险提示的自动化流程,有效提升投研效率。
|
消息中间件 Java Kafka
实时数仓Kappa架构:从入门到实战
【11月更文挑战第24天】随着大数据技术的不断发展,企业对实时数据处理和分析的需求日益增长。实时数仓(Real-Time Data Warehouse, RTDW)应运而生,其中Kappa架构作为一种简化的数据处理架构,通过统一的流处理框架,解决了传统Lambda架构中批处理和实时处理的复杂性。本文将深入探讨Kappa架构的历史背景、业务场景、功能点、优缺点、解决的问题以及底层原理,并详细介绍如何使用Java语言快速搭建一套实时数仓。
1789 4
|
缓存 关系型数据库 MySQL
实时计算 Flink版产品使用问题之缓存内存占用较大一般是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL 消息中间件 关系型数据库
Flink报错问题之mysql timestamp字段报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
DataWorks
DataWorks售前咨询
DataWorks售前咨询
15959 8
DataWorks售前咨询
|
消息中间件 Dubbo Java
Spring Boot、Spring Cloud、Spring Cloud Alibaba 版本依赖关系
Spring Boot、Spring Cloud、Spring Cloud Alibaba 版本依赖关系
2028 2