使用Databricks进行营销效果归因分析的应用实践| 学习笔记-阿里云开发者社区

使用Databricks进行营销效果归因分析的应用实践| 学习笔记

2022-11-24 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习使用Databricks进行营销效果归因分析的应用实践

开发者学堂课程【Databricks数据洞察公开课：使用Databricks进行营销效果归因分析的应用实践】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/1058/detail/15566

使用Databricks进行营销效果归因分析的应用实践

内容介绍：

一、本次机器学习的主题：精准分析客户流量，归因评估广告效果

二、代码部分

主要内容是学习 DDI 的 notebook营销数据分析里，一站式的完成机器学习的整个流程，包括，数据集的校验，模型的训练以及模型的预测。

一、本次机器学习的主题：精准分析客户流量，归因评估广告效果

是在当下的信息化时代用户每天会收到媒体投放大量的广告信息，那么如何精准地做到广告投放，通过分析广告产生的效应来合理地分配广告渠道，本文可以通过归因分析模型来分析不同渠道下的 New York City 快餐店人流量的数据，量化影响人们去快餐店消费的主要活动因子，同时会介绍面对多而杂的数据， DDI 是如何通过一站式的数据分析平台和 Delta Lake 架构来简化这些流程的。

如以下技术架构图。

首先是从不同的媒体网站上，去获要需要的人流量的数据：社交媒体网站、谷歌趋势图，还有 Safety Graph ，是一个地点模式的数据集，它是匿名的方式汇总游客的浏览信息，将这部分数据 load 到Data Lake里，在 Data Lake 分了经典的三层架构：基础层架构Bronze 层、数据清洗 schema 的变更存到Silver 层，数据的聚合等数据集的展示层 Gold 层，可以对这部分数据进行 Machine Learning以及离线的事故查询，做报表展示等等，都可以在 Data Lake 这架构里进行完成，同时简单提一下，在做机器学习的时候，其实前期有很多 Delta Enging 的工作要进行，比如做 Feature 的校验，那么我们可能会有字段的变更，这部分字段的变更在传统意义上，需要对这个数据进行一个重新的 alright 或者是从源头开始进行清洗工作，那么我们有了 Data Lake 架构后，在 Data 的 Transaction log 里，直接可以对一张表进行 update ，这可以大大简化数据分析的效率

首先进行一条的数据清洗工作，那么在本小节的notebook下，我们将执行以下几个步骤。

模拟人流量的数据，存到 Bronze层，同时对数据进行清洗，将清洗后的数据写入到 Silver 层，接下来对数据影响人流量的因素进行一个聚合，将聚合后的表写入到gold 表， gold 表就是接下来想要进行机器学习训练集的数据，这部分数据需要进行进一步的校验，看是否满足训练集的要求。

二、代码部分

首先引入了 spark conf ，在 conf 下设置了适合本次学习资源大小的 spark session ，然后定义了一些变量，这些变量存储了一些数据集的 OSS 路径。

在 DDI 的架构里计算和存储是分离的，所以数据都统一存储的 OSS 上，将数据 load到Data Insight 里，展示数据集的样子：如下图

可以看到 region是 New York stage ，纽约州， city 是 new york city，Location name是一家快餐店的名称，需要格外注意的是visits_by_date这个阶段，那么这个阶段它是 Array 的形式，接下来需要对它进行打平。

接下来对这段进行一个筛选，筛选出需要的字段，上图就是对visits_by_date 进行打平，理想的结果是需要将每日的访问人流量进行展示。

上图是8月的每天的顺序的人流量的情况，将数据进行打平后，它就是 by date的人流量的数据情况，将这部分数据写入到 server path 下，同时如果做机器学习模型训练集，仅仅依靠Visitor Number是不够的，需要引入不同的快餐店人流量的数据来丰富的数据工程，所以接下来又创建了一个赛百味的fast food 数据集，对数据集做了丰富，模拟了它的广告投放以及社交媒体还有它的每户网站的 Visitor 这几个参数的人流量情况，复制到 food traffic 这张表里，又通过调用Google Trends API来丰富 food traffic 这个数据,可以看到这个数据，这个数据是by week的形式，平均去访问这个关键字的人数，将人数也加入到 Traffic food这张表里，就得到了一个聚合后的数据，将聚合后的数据写入到 delta golden path 里，这样就完成了数据的一条工作。

机器学习模块

在以上架构图中，前期已经将不同的来源的人流量的数据，统一load 到Data Lake 架构里，通过数据清洗，同时得到了 gold table ，需要对 gold table 里的一段进行校验，校验的目的就是查看是否， feature以及这张表，它满足我们接下来的机器学习模型训练的需求，通过Xgboost 的模型来做 Machine learning 。

通过使用预测的模型来量化不同渠道的访问的人流量来最终影响消费，接下来们在本小节的 notebook 只要执行以下步骤，是使用汇总后的 gold 表作为训练集，然后对 feature 进行分部校验，同时使用 Xgboost 学习框架做训练得到训练模型，然后分析这个模型得出不同渠道下的广告，是否真实有效的影响客流量，接下来利用SHAP 模型来整合各个媒介的渠道，影响客流量的百分比，然后并对这个广告投放的优化提出一个可行性的见解，下图是需要依赖的 python 库的环境。

Xgboost ==0.90

shap==0.35.0

plotly

首先是将 gold table load 到 insight里，通过对 table 进行分析。

这张表是整个纽约州的不同城市之间流量的分布图。