文档备案控制台

开发者社区大数据文章正文

大数据 - DWD&DIM 行为数据

2024-08-14 210

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据 - DWD&DIM 行为数据

我们前面采集的日志数据已经保存到 Kafka 中，作为日志数据的 ODS 层，从 Kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据，但是有着完全不一样的数据结构，所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中，作为日志 DWD 层。

流页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流

识别新老用户

本身客户端业务有新老用户的标识，但是不够准确，需要用实时计算再次确认(不涉及业务操作，只是单纯的做个状态确认)。

启动日志

曝光日志

页面日志

实现逻辑

获取执行环境
消费 ods_base_log 主题数据创建流
将每行数据转换为JSON对象(脏数据写到侧输出流)
新老用户校验状态编程
分流侧输出流页面：主流启动：侧输出流曝光：侧输出流
提取侧输出流
将三个流进行打印并输出到对应的Kafka主题中
启动任务

# 启动三个消费者，分别消费 dwd_start_log、dwd_page_log、dwd_display_log 主题
$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic dwd_page_log

尚硅谷源代码

B站视频 DWD&DIM

大数据-数据仓库-实时数仓架构分析

大数据-业务数据采集-FlinkCDC

大数据 - DWD&DIM 行为数据

大数据 - DWD&DIM 业务数据

大数据 DWM层业务实现

文章标签：

云原生大数据计算服务 MaxCompute

云消息队列 Kafka 版

日志服务

大数据

消息中间件

Kafka

数据采集

JSON

关键词：

云原生大数据计算服务 MaxCompute数据

云原生大数据计算服务 MaxCompute dwd

云原生大数据计算服务 MaxCompute dim

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

VipSoft

目录

相关文章

Echo_Wish

|

6月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

425 14 14

1062754335

|

8月前

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

275 4 4

LucianaiB

|

8月前

|

分布式计算 DataWorks 数据处理

在数据浪潮中前行：记录一次我与ODPS的实践、思考与展望

本文详细介绍了在 AI 时代背景下，如何利用阿里云 ODPS 平台（尤其是 MaxCompute）进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向，同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径，为企业提供高效、低成本的大规模数据处理方案。

LucianaiB

392 3 3

特立独行的猫-33311

|

8月前

|

SQL 人工智能分布式计算

ODPS：数据浪潮中的成长与突围

本文讲述了作者在大数据浪潮中，通过引入阿里云ODPS体系（包括MaxCompute、DataWorks、Hologres）解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构，ODPS不仅提升了数据处理效率，更推动了技术能力与业务影响力的双重跃迁。

特立独行的猫-33311

234 4 4

Echo_Wish

|

7月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

492 0 0

Echo_Wish

|

6月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

211 14 14

凯哥亡命天涯

|

8月前

|

SQL 人工智能分布式计算

在数据浪潮中前行：我与ODPS的实践、思考与展望

在数据驱动决策的时代，企业如何高效处理海量数据成为数字化转型关键。本文结合作者实践，深入解析阿里云自研大数据平台 ODPS 的技术优势与应用场景，涵盖 MaxCompute、DataWorks、Hologres 等核心产品，分享从数据治理到实时分析的落地经验，并展望其在 AI 与向量数据时代的发展前景。

凯哥亡命天涯

298 70 71

basu2023

|

5月前

|

传感器人工智能监控

拔俗多模态跨尺度大数据AI分析平台：让复杂数据“开口说话”的智能引擎

在数字化时代，多模态跨尺度大数据AI分析平台应运而生，打破数据孤岛，融合图像、文本、视频等多源信息，贯通微观与宏观尺度，实现智能诊断、预测与决策，广泛应用于医疗、制造、金融等领域，推动AI从“看懂”到“会思考”的跃迁。

basu2023

404 0 0

Echo_Wish

|

6月前

|

机器学习/深度学习传感器监控

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

Echo_Wish

200 1 1

Echo_Wish

|

6月前

|

数据采集自动驾驶机器人

数据喂得好，机器人才能学得快：大数据对智能机器人训练的真正影响

数据喂得好，机器人才能学得快：大数据对智能机器人训练的真正影响

Echo_Wish

519 1 1

热门文章

最新文章

MaxCompute优化系列-如何使用`MAPJOIN` ？

深入阿里云大数据IDE–MaxCompute Studio

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

蚂蚁金服高级技术专家徐红星：蚂蚁金服大数据开放式创新实践

2016大数据创新大赛——机场客流量的时空分布预测模型解析

阿里云大数据利器Maxcompute-使用mapjoin优化查询

如何构建云原生的开源大数据平台 | 产品新功能速递

《中国大数据企业评级白皮书》出炉从大数据应用视角剖析信息安全产业

大数据治理：确保数据质量和合规性

数据可视化：将大数据分析转化为视觉洞察

大数据技术生态系统概述

Java的大数据处理与分析技术 (2)

大数据基础：收集、处理与分析

大数据处理：挖掘价值之道

大数据技术闲侃之-鹰隼试翼风尘翕张

大数据技术人员的打怪升级之路

大数据开发第一站ODS篇

利用SparkSQL Logical Plan Parse 打造大数据平台SQL诊断利器

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

ECS账号安全防护最佳实践