开发者学堂课程【2020版大数据实战项目之DMP广告系统(第四阶段):方案_我们能学到什么】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/679/detail/11795
方案_我们能学到什么
DMP 的主要任务
这节课主要讲 DMP 项目当中,主要能学到什么,以及整个编写代码的流程应该是怎么样的。这些内容都在 idea 工程当中去实现,其实也就是刚才所说三个工程当中的第一个工程,在这个工程当中,既要做 ETL ,把数据落地到 ODS ,要去 ODS 当中补取那张表,去统计广告类的各种报表,对数据进行标签化。但是标签化要用到商圈库这个功能,标签化和商圈库最终要进行标签合并和统一用户识别。
标签合并是假如说现在有了一类标签,又生成了一类标签,这两类标签是否合并,这是一个问题。如果数据集当中,多条数据对应对应一个用户,怎么摘出来其中关系,怎么去进行统一用户的判定,哪一条数据属于哪一个用户因为标识会有不同。这些事情做完,要进行标签衰减,历史合并,客户识别,合并。这些功能虽然很多,其实是在一个文件里做的,并不算特别复杂。
在整个项目当中,能学到比较大知识点。第一大知识点,报表生成,包括如何报表,数据组织。第二大知识点,如何进行标签法,如何使用 spark 进行相对较为复杂的数据处理和合并,此操作比较复杂。