依托MaxCompute构建零售快消品行业数据仓库

简介: 利用MaxCompute,五叶草为某世界500强快消品零售巨头搭建了企业级数据仓库。由于部分子系统未打通、业务逻辑繁杂,客户的业务分析工作主要在线下人工完成,分析时间长、统计口径不一、数据质量参差不齐。

利用MaxCompute,五叶草为某世界500强快消品零售巨头搭建了企业级数据仓库。由于部分子系统未打通、业务逻辑繁杂,客户的业务分析工作主要在线下人工完成,分析时间长、统计口径不一、数据质量参差不齐。在将数据存储在MaxCompute后,依托其强大的海量数据处理能力,原先需要花数小时更新的报表只在10分钟左右即可完成,有效降低了时间人力成本,提升了工作效率,使客户可以将更多的精力投入到业务升级中去。

在MaxCompute中我们定义了如下的各层数据模型:

 

e0e292e6981f4005a96a932be3ed7264223986e6

1.      数据接口层

数据接口层的数据结构应该对应源系统。应当注意的是同步的源数据要避免使用视图,在客户的生产环境上曾经出现过这样的情况:由于存储过程优化不好,同步视图在同步任务发起后仍然没有生成出来,导致同步任务及后续的ETL挂起。所以后续通过客户和第三方接洽,将数据源从视图换为表。

2.      基础数据层

所有清洗、整合、运算工作应当放在基础数据层,避免对同步表里数据进行操作。以增量更新基础表为例,通过使用下面的方法,我们实现了每天增量更新数据到全量基础表的新分区,当天增量与昨天全量合并,数据存在冲突时优先保留增量记录


其中dwd_dummy_data为全量基础表,存放昨天的全量数据;ods_dummy_data为增量同步表,存放今天的增量数据。

由于数据更新之后插入了新分区,保留的基础表原始数据就为后面数据比对提供了极大的便利。客户部分数据源是由其他第三方维护的,出现过本月客户及该第三方协商对上月数据进行了修改,但是没有将该操作告知我们,最终导致上月月报结果与客户BI部门统计有出入。通过与客户提供的数据比对,我们发现了原始数据不一致的地方,我们在测试环境中对历史数据复现了相同的操作,并重跑了之后的任务,最终上月月报结果与客户BI部门结果一致。

 3788b365a72d74b45551290a663bc9af6c589813

3.      多维数据层、数据应用层

在基础数据层,通过清洗、整合、运算得到的表为基本的维度表、事实表。需要面向业务,计算出业务指标后生成一张多维度表,并最终展现给客户。根据进销存、人货场财等分析思路,可以沿着某一方向深挖下去,下面展示了几张从人、场、货三个方向可以分析得出的多维度表,以及所需的基础数据。我们也在打通更多的数据通路


 be744f365ff0d1718b7099c9cfd1ea7ad1434521

 

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
6月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
10月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
280 5
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
254 3
|
8月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
364 0
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
951 58
|
11月前
|
数据采集 搜索推荐 算法
大数据赋能零售,打造个性化购物新纪元
大数据赋能零售,打造个性化购物新纪元
230 12

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute