大数据框架原理简介(2)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据框架原理简介(2)

问题分析


  • 业务变化很快


业务数据表经常变化字段含义、增加各种逻辑数据等


  • 业务数据源越来越多


随着品类越来越多,新部门逐步成立,数据源也就越来越多样化



  • 需求越来越多,越来越复杂


所有的产品和运营都向我们要各种各样的用户行为数据、订单分析数据和竞对优势数据


  • 数据的实时行要求越来越高


早晨提出个新业务数据需求,晚上就要


分析数据特点


此时的数据集合不是数据仓库 因为不符合相对稳定的和反应历史变化的两个条件
因为类似订单类数据,每天全量更新
(原因是同一个订单状态随着时间会变化,比如今天买了,明天退货了)
而是一个ODS


解决方案


image.png


优势


  • ODS的数据与数据仓库的数据高度统一


  • 开发成本低,开发一次并应用到ODS即可


  • 可见ODS是发挥承上启下的作用

劣势


  • 数据仓库需要的所有数据都需要走ODS


  • 扩展、系统的灵活性差


OB-ODS



优势


  • 结构简单 初创数据分析团队都是类似的结构

劣势


  • 所有数据都归结到ODS


  • 长期数据决策分析能力差,软硬件成本高,模块划分不清晰,通用性差


数据仓库和ODS并行


业务数据 - ODS - 数据仓库


image.png


优势


  • 便于扩展,ODS和数据仓库各做各的,形成优势互补


ODS和DW区别


数据的当前性


ODS包括的是当前或接近当前的数据
ODS反映的是当前业务条件的状态
ODS的设计与用户或业务的需要是有关联的
而DW则是更多的反映业务条件的历史数据


数据的更新或加载


ODS中的数据是可以进行修改的
而DW中的数据一般是不进行更新的
ODS的更新是根据业务的需要进行操作的,而没有必要立即更新
因此它需要一种实时或近实时的更新机制
DW中的数据是按照正常的或预先指定的时间进行数据的收集和加载的


数据的汇总性


ODS主要是包括一些细节数据
但是由于性能的需要,可能还包括一些汇总数据
如果包括汇总数据,可能很难保证数据的当前性和准确性
ODS中的汇总数据生命周期比较短,所以可称作为动态汇总数据
如果细节数据经过了修改,则汇总数据同样需要修改
而DW中的数据可称为静态的汇总数据




相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
253 4
MaxCompute 聚簇优化推荐原理
|
SQL 分布式计算 大数据
MaxCompute 聚簇优化推荐简介
在大数据计算中,Shuffle 是资源消耗最大的环节之一。MaxCompute 提供聚簇优化推荐功能,通过调整 Cluster 表结构,有效减少 Shuffle 量,显著提升作业性能并节省计算资源。实际案例显示,该功能可帮助用户每日节省数 PB 的 Shuffle 数据量及数千 CU 的计算成本。
195 0
|
6月前
|
Cloud Native 大数据 Java
大数据新视界--大数据大厂之大数据时代的璀璨导航星:Eureka 原理与实践深度探秘
本文深入剖析 Eureka 在大数据时代分布式系统中的关键作用。涵盖其原理,包括服务注册、续约、发现及自我保护机制;详述搭建步骤、两面性;展示在大数据等多领域的应用场景、实战案例及代码演示。Eureka 如璀璨导航星,为分布式系统高效协作指引方向。
|
9月前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
437 3
|
10月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
518 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
10月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
472 8
|
11月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
421 2
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
257 3
|
消息中间件 分布式计算 druid
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
308 2
|
SQL 消息中间件 分布式计算
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(一)
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(一)
343 0
下一篇
oss云网关配置