开发者社区数据库文章正文

【大数据环境准备】（十）数仓分层业务选型

2023-08-28 335

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数仓分层业务选型

ODS:

Kafka

DIM：维度&明细

✅HBASE：海量数据永久存储，根据主键快速查询

❎Redis ：用户表数据量大，内存数据库费用高

❎ClickHouse: 并发不行，列存

❎ES：默认给所有字段字段创建索引划词

❎Hive(HDFS):效率低下

✅Mysql: 压力太大，用从库

DWD:

读取并分组累加处理

Kafka

DWS: 宽表

用户、省份、商品 GMV | 累加处理，聚合操作

ClickHouse 列存

ADS:

用户GMV

省份GMV

省份、商品GMV

Mysql

有事实表分为三种类型：事务事实表、周期快照事实表和累积快照事实表。
//todo

文章标签：

云原生数据仓库AnalyticDB MySQL版

云原生大数据计算服务 MaxCompute

大数据

消息中间件

关系型数据库

MySQL

Kafka

关键词：

云原生大数据计算服务 MaxCompute环境

云原生大数据计算服务 MaxCompute数仓

云原生数据仓库AnalyticDB MySQL版分层

云原生数据仓库AnalyticDB MySQL版选型

云原生大数据计算服务 MaxCompute分层

相关实践学习

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库，高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准，可以对海量数据进行即时的多维分析透视和业务探索，快速构建企业云上数据仓库。了解产品 https://www.aliyun.com/product/ApsaraDB/ads

钱塘大舅哥

青云交（Java大数据AI云原生Python）

11月前

本文探讨 Java 大数据在智能教育虚拟学习环境中的应用，涵盖多源数据采集、个性化推荐、实时互动优化等核心技术，结合实际案例分析其在提升学习体验与教学质量中的成效，并展望未来发展方向与技术挑战。

青云交（Java大数据AI云原生Python）

350 0 0

武子康

SQL 机器学习/深度学习分布式计算

大数据-81 Spark 安装配置环境集群环境配置超详细三台云服务器

武子康

1045 1 1

Echo_Wish

11月前

传感器分布式计算大数据

“用大数据盯着天看地”——聊聊环境监测的精准化升级

Echo_Wish

236 0 0

青云交（Java大数据AI云原生Python）

12月前

传感器机器学习/深度学习算法

Java 大视界 -- Java 大数据在智能农业温室环境调控与作物生长模型构建中的应用（189）

本文探讨了Java大数据在智能农业温室环境调控与作物生长模型构建中的关键应用。通过高效采集、传输与处理温室环境数据，结合机器学习算法，实现温度、湿度、光照等参数的智能调控，提升作物产量与品质。同时，融合多源数据构建精准作物生长模型，助力农业智能化、精细化发展，推动农业现代化进程。

青云交（Java大数据AI云原生Python）

342 0 0

探索云世界

12月前

存储 SQL 分布式计算

MaxCompute x 聚水潭：基于近实时数仓解决方案构建统一增全量一体化数据链路

聚水潭作为中国领先的电商SaaS ERP服务商，致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战，聚水潭采用MaxCompute近实时数仓Delta Table方案，有效提升数据新鲜度和计算效率，提效比例超200%，资源消耗显著降低。未来，聚水潭将进一步优化数据链路，结合MaxQA实现实时分析，赋能商家快速响应市场变化。

探索云世界

512 0 0

技术内容小助手

SQL 存储分布式计算

MaxCompute近实时数仓能力升级

本文介绍了阿里云自研的离线实时一体化数仓，重点涵盖MaxCompute和Hologres两大产品。首先阐述了两者在ETL处理、AP分析及Serverless场景中的核心定位与互补关系。接着详细描述了MaxCompute在近实时能力上的升级，包括Delta Table形态、增量计算与查询支持、MCQ 2.0的优化等关键技术，并展示了其性能提升的效果。最后展望了未来在秒级数据导入、多引擎融合及更高效资源利用方面的改进方向。

技术内容小助手

616 2 2

灵杰开发者

分布式计算大数据 Serverless

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

在2024云栖大会开源大数据专场上，阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash，该引擎100%兼容Apache Flink标准，性能提升5-10倍，助力企业降本增效。此外，EMR Serverless Spark产品启动商业化，提供全托管Serverless服务，性能提升300%，并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行，欢迎报名参加。

灵杰开发者

1131 6 6

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

九月天空

存储大数据数据处理

大数据环境下的性能优化策略

九月天空

640 2 2

郑小健

分布式计算大数据 OLAP

AnalyticDB与大数据生态集成：Spark & Flink

【10月更文挑战第25天】在大数据时代，实时数据处理和分析变得越来越重要。AnalyticDB（ADB）是阿里云推出的一款完全托管的实时数据仓库服务，支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力，将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发，分享如何将AnalyticDB与Spark和Flink集成，构建端到端的大数据处理流水线，实现数据的实时分析和处理。

郑小健

598 1 1

【大数据环境准备】（十）数仓分层业务选型

ODS:

DIM：维度&明细

DWD:

DWS: 宽表

ADS:

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【大数据环境准备】（十）数仓分层业务选型

ODS:

DIM：维度&明细

DWD:

DWS: 宽表

ADS:

热门文章

最新文章

相关课程

相关电子书