开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

概述机器学习的解决方案的流程是什么?

概述机器学习的解决方案的流程是什么?

展开
收起
游客lmkkns5ck6auu 2022-07-28 16:34:40 475 0
1 条回答
写回答
取消 提交回答
  • 完成ETL的相关工作之后,进入机器学习模块,将不同来源的人流量数据,统一到Data Lake架构里。通过数据清洗,得到需要的数据。然后,对数据进行校验,确定是否满足机器学习的模型训练需求。

    通过使用预测模型,量化不同渠道的人流量,对最终消费进行预测。接下来,利用模型,整合各个媒介渠道影响客流量的百分比,对广告投放的优化提出可行性的见解。 第一张表是整个纽约州不同城市间的人流分布图,第二张表是NewYork City的人流分布图。可以直观看到不同城市间的人流量差距较大,所以要对纽约州的每个城市进行单独的分析。 接下来,使用Plot features对数据进行校验,使用Pandas数据框进行数据搜索,数据解析。

    通过Python绘图,可以看到数据的分布情况,比如广告投放的连续情况,以及社交媒体网站的浏览情况。

    完成上述操作后,对数据集的整体分布进行校验,得feature分布符合预期。综上所述该数据集满足Xgboost学习训练的要求。

    接下来,使用Xgboost机器学习框架进行训练。通过调整参数,选择一个相对损失较小的训练模型,对该模型进行实际预测,从上图可以看到,红色线是预测结果,蓝色线是真实的客户流量。

    通过该模型进行实际预测客流量的影响,占总体的得出社交媒体对客流量的影响,占总体的50.7% ,网页浏览对39%。故得出,不同渠道的广告对客流的影响,真实有效。

    综上所述,利用SHAP模型整合各媒介渠道客流的百分比,通过绘制图表,能够准确找到影响客流量最大的因子。社交媒体和home页面访问是推动客流量最有效的渠道,所以预算分配可以有的放失,从而提高整体销售或市场份额。 以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:41:33
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
大规模机器学习在蚂蚁+阿里的应用 立即下载
基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
基于Spark的大规模机器学习在微博的应用 立即下载