使用Databricks进行营销效果归因分析的应用实践| 学习笔记

简介: 快速学习使用Databricks进行营销效果归因分析的应用实践

开发者学堂课程【Databricks数据洞察公开课使用Databricks进行营销效果归因分析的应用实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1058/detail/15566


使用Databricks进行营销效果归因分析的应用实践

 

内容介绍:

一、本次机器学习的主题:精准分析客户流量,归因评估广告效果

二、代码部分

 

主要内容是学习 DDI notebook营销数据分析里,一站式的完成机器学习的整个流程,包括,数据集的校验,模型的训练以及模型的预测。

一、本次机器学习的主题:精准分析客户流量,归因评估广告效果


是在当下的信息化时代用户每天会收到媒体投放大量的广告信息,那么如何精准地做到广告投放,通过分析广告产生的效应来合理地分配广告渠道,本文可以通过归因分析模型来分析不同渠道下的 New York City 快餐店人流量的数据,量化影响人们去快餐店消费的主要活动因子,同时会介绍面对多而杂的数据, DDI 是如何通过一站式的数据分析平台和 Delta Lake 架构来简化这些流程的。

如以下技术架构图。

image.png

首先是从不同的媒体网站上,去获要需要的人流量的数据:社交媒体网站、谷歌趋势图,还有 Safety Graph ,是一个地点模式的数据集,它是匿名的方式汇总游客的浏览信息,将这部分数据 load Data Lake里,在 Data Lake 分了经典的三层架构:基础层架构Bronze 层、数据清洗 schema 的变更存到Silver 层,数据的聚合等数据集的展示层 Gold 层,可以对这部分数据进行 Machine Learning以及离线的事故查询,做报表展示等等,都可以在 Data Lake 这架构里进行完成,同时简单提一下,在做机器学习的时候,其实前期有很多 Delta Enging 的工作要进行,比如做 Feature 的校验,那么我们可能会有字段的变更,这部分字段的变更在传统意义上,需要对这个数据进行一个重新的 alright 或者是从源头开始进行清洗工作,那么我们有了 Data Lake 架构后,在 Data Transaction log 里,直接可以对一张表进行 update ,这可以大大简化数据分析的效率

首先进行一条的数据清洗工作,那么在本小节的notebook下,我们将执行以下几个步骤。

模拟人流量的数据,存到 Bronze层,同时对数据进行清洗,将清洗后的数据写入到 Silver 层,接下来对数据影响人流量的因素进行一个聚合,将聚合后的表写入到gold 表, gold 表就是接下来想要进行机器学习训练集的数据,这部分数据需要进行进一步的校验,看是否满足训练集的要求。

 

二、代码部分


首先引入了 spark conf ,在 conf 下设置了适合本次学习资源大小的 spark session ,然后定义了一些变量,这些变量存储了一些数据集的 OSS 路径。

DDI 的架构里计算和存储是分离的,所以数据都统一存储的 OSS 上,将数据 loadData Insight 里,展示数据集的样子:如下图

image.png

可以看到 region New York stage ,纽约州, city new york cityLocation name是一家快餐店的名称,需要格外注意的是visits_by_date这个阶段,那么这个阶段它是 Array 的形式,接下来需要对它进行打平。

image.png

接下来对这段进行一个筛选,筛选出需要的字段,上图就是对visits_by_date 进行打平,理想的结果是需要将每日的访问人流量进行展示。

image.png

上图是8月的每天的顺序的人流量的情况,将数据进行打平后,它就是 by date的人流量的数据情况,将这部分数据写入到 server path 下,同时如果做机器学习模型训练集,仅仅依靠Visitor Number是不够的,需要引入不同的快餐店人流量的数据来丰富的数据工程,所以接下来又创建了一个赛百味的fast food 数据集,对数据集做了丰富,模拟了它的广告投放以及社交媒体还有它的每户网站的  Visitor 这几个参数的人流量情况,复制到 food traffic 这张表里,又通过调用Google Trends API来丰富 food traffic 这个数据,可以看到这个数据,这个数据是by week的形式,平均去访问这个关键字的人数,将人数也加入到 Traffic food这张表里,就得到了一个聚合后的数据,将聚合后的数据写入到 delta golden path 里,这样就完成了数据的一条工作。

机器学习模块

image.png

在以上架构图中,前期已经将不同的来源的人流量的数据,统一load Data Lake 架构里,通过数据清洗,同时得到了 gold table ,需要对 gold table 里的一段进行校验,校验的目的就是查看是否, feature以及这张表,它满足我们接下来的机器学习模型训练的需求,通过Xgboost  的模型来做 Machine learning

 

通过使用预测的模型来量化不同渠道的访问的人流量来最终影响消费,接下来们在本小节的 notebook 只要执行以下步骤,是使用汇总后的 gold 表作为训练集,然后对 feature 进行分部校验,同时使用 Xgboost 学习框架做训练得到训练模型,然后分析这个模型得出不同渠道下的广告,是否真实有效的影响客流量,接下来利用SHAP 模型来整合各个媒介的渠道,影响客流量的百分比,然后并对这个广告投放的优化提出一个可行性的见解,下图是需要依赖的 python 库的环境。

Xgboost ==0.90

shap==0.35.0

plotly

首先是将 gold table load insight里,通过对 table 进行分析。

这张表是整个纽约州的不同城市之间流量的分布图。

image.png

纽约人流量的分布图:

image.png

通过这两张图能够直观的认识到不同城市之间,人流量的差距是比较大的。

所以要对每个州下面的每个城市进行一个单独的分析,选择了纽约这个城市的人流量的数据集,这个数据集比较符合对训练集的要求,接下来就要对数据集里面的这些 feature做一个校验,看它是否满足要求,使用的是 Pandas 库,对数据进行解析。

image.png

然使用 Plot 的通过 Python 绘图,可以看到数据的分布情况,可以通过放大和缩小,来看到分布情况。

image.png

也可以看到整体的连续性。

image.png

比如广告投放,每日的联系情况以及4家媒体网站浏览的人流量的情况,可以看到连续的模型。

通过 Q-Q plots数据集的整体的分布进行校验,观察 Feature 的分布情况。

image.png

通过上图能够清晰观察到  feature 的分布是符合预期的。

所以综上所述,这个数据集可以满足,接下来机器学习训练的要求,使用 Xgboost 的机器学习框架进行训练,可以通过调整它的参数来选择一个相对损失较小的训练 model ,拿到这个 model 后,对 model 做实际的预测,从下图就可以看到。

红色的线就是预测出来的结果,蓝色线是真实的客户流量,线的拟合效果较好,细节处的一些峰值,有消峰的情况。

image.png

已经有了训练出来的模型,接下来要使用模型来进行实际的预测,首先预测影响是不同媒体渠道对客流量影响的百分比,从下图,就能够直观的看到。

通过Social media以及 landing page 这两个影响客流量真实消费的因素是占比最大的。

image.png

也可以通过量化的指标来看到社交媒体的占比是50.7% ,网页浏览占了39%

image.png

同时也可以把时间长度扩大,扩大到一年或者是更长的范围,也能发现不同的feature 对效应产生的影响。

image.png

全年度的的影响效果,社交媒体的影响,页面浏览的影响,以及关键字的影响,谷歌搜索的影响,能够看出来影响消费趋势。

总结:

根据绘制的图标,准确地找到影响客流的最大因素,像社交媒体以及烘培制访问是推动人流量的最有效的渠道,所以做预算分配的时候,就可以有的放矢,然后以提高销售的市场份额。


image.png

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
57 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
5月前
|
存储 SQL BI
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
|
15天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
2月前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
【图像生成技术】人工智能在广告营销的革新:图像生成技术的应用与实践代码示例
随着人工智能技术的飞速发展,广告营销行业迎来了前所未有的变革。图像生成技术,作为AI领域的一颗璀璨明星,正被广泛应用于创造个性化、高吸引力的产品展示图、海报乃至宣传视频,以精准对接目标受众,显著提升广告的转化率和整体营销效果。本文将深入探讨这一技术的应用场景,并通过一个简单的代码示例,展示如何利用深度学习框架TensorFlow来实现创意图像的自动生成。
79 4
|
4月前
|
人工智能 自然语言处理 监控
科技云报道:产业为根大模型应用为擎,容联云推动企业营销服场景重塑
小切口大纵深,容联云以大模型驱动企业营销场景重构
科技云报道:产业为根大模型应用为擎,容联云推动企业营销服场景重塑
|
5月前
|
敏捷开发 存储 前端开发
【美团技术】领域驱动设计DDD在B端营销系统的实践
【美团技术】领域驱动设计DDD在B端营销系统的实践
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能在营销中的应用非常广泛
【5月更文挑战第15天】人工智能在营销中的应用非常广泛
92 3
|
6月前
EDM营销平台有哪些?Top5平台分析
探索五大热门EDM营销平台:蜂邮EDM以其丰富功能备受喜爱;Constant Contact以用户友好体验著称;Sendinblue结合短信营销与广告管理,适合中小企业;GetResponse提供营销自动化解决方案,适合各类企业;AokSend以其历史底蕴和分析工具吸引用户。各平台特色各异,企业可根据需求选择。