文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

概述机器学习的解决方案的流程是什么？

概述机器学习的解决方案的流程是什么？

展开

收起

游客lmkkns5ck6auu 2022-07-28 16:34:40 587 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

完成ETL的相关工作之后，进入机器学习模块，将不同来源的人流量数据，统一到Data Lake架构里。通过数据清洗，得到需要的数据。然后，对数据进行校验，确定是否满足机器学习的模型训练需求。

通过使用预测模型，量化不同渠道的人流量，对最终消费进行预测。接下来，利用模型，整合各个媒介渠道影响客流量的百分比，对广告投放的优化提出可行性的见解。第一张表是整个纽约州不同城市间的人流分布图，第二张表是NewYork City的人流分布图。可以直观看到不同城市间的人流量差距较大，所以要对纽约州的每个城市进行单独的分析。接下来，使用Plot features对数据进行校验，使用Pandas数据框进行数据搜索，数据解析。

通过Python绘图，可以看到数据的分布情况，比如广告投放的连续情况，以及社交媒体网站的浏览情况。

完成上述操作后，对数据集的整体分布进行校验，得feature分布符合预期。综上所述该数据集满足Xgboost学习训练的要求。

接下来，使用Xgboost机器学习框架进行训练。通过调整参数，选择一个相对损失较小的训练模型，对该模型进行实际预测，从上图可以看到，红色线是预测结果，蓝色线是真实的客户流量。

通过该模型进行实际预测客流量的影响，占总体的得出社交媒体对客流量的影响，占总体的50.7% ,网页浏览对39%。故得出，不同渠道的广告对客流的影响，真实有效。

综上所述，利用SHAP模型整合各媒介渠道客流的百分比，通过绘制图表，能够准确找到影响客流量最大的因子。社交媒体和home页面访问是推动客流量最有效的渠道，所以预算分配可以有的放失，从而提高整体销售或市场份额。以上内容摘自《Databricks数据洞悉》电子书，点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

2022-07-29 10:41:33

赞同展开评论

问答分类：

机器学习/深度学习开源大数据平台 E-MapReduce

问答标签：

人工智能平台 PAI解决方案人工智能平台 PAI流程机器学习平台 PAI流程概述机器学习平台 PAI 机器学习平台 PAI解决方案

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

请问，我跟着文档手册模型训练Train的流程，出现下面的错误，应该怎么处理呀？

307

1

0

DataWorks导入Pai的节点，报错显示资源不存在。当前其他流程能正常跑，这种是什么原因？

241

1

0

机器学习PAI这个如果保存结果模型，可以在另外一个流程中直接导入使用吗？

195

1

0

ModelScope怎么样把创空间发布到PAI或EAIS上，有具体流程没有？

139

1

0

机器学习PAI自定义模型，在PAI上跑的流程是怎样的啊？打一个这样的包上传吗？bipartite_

208

2

0

可否介绍下机器学习PAI这几个文件的作用和流程啊？还是这个可选择deeprec啊？

192

2

0

机器学习PAI这个流程我在执行到 ar -这个文件这是什么原因呢？

234

2

0

请问一下有人熟悉通用文本打标解决方案文档机器学习PAI平台的用法吗？

280

2

0

机器学习PAI的训练模型，预测结果是在一个流程里边，还是可以拆开，分成两个？训练完成，直接预测结果吗

253

2

0

各位大佬有机器学习PAI在零售行业相关的解决方案可以分享吗？

190

2

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

相关文章

多AI交叉验证实操指南：用共识度量化答案可信度

农田虫害目标检测数据集：12类别 | 目标检测

数据权限还靠人批？构建数据使用审批与血缘驱动的自动化工作流，才是大数据平台的未来

基于融合高光谱与纹理特征的机器学习模型估算水稻产量相关性状

基于信息获取优化算法的茄子种子活力分类特征波段优选研究

热门讨论

热门文章

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗？

hdfs 文件块过多（1亿）每个datanode 占3000万块(分16G内),某时刻内存陡然增加？

我想1159087087316311这个国内站账户适用EMR Notebook和Workflow服

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

请教下EMR的DataLake集群，如果我自己装Zeppelin和Hue，会有兼容性问题么

分区删除后回收站的数据已经超过了设置的24小时，一直没有清理是什么原因？

阿里云E-MapReduce我如果把roll的参数调小点，就可以切分均匀，日志有大量的这个，正常吗？

阿里云E-MapReduce中JindoDistCp 有什么参数覆盖目标目录吗？

数据湖存储OSS是什么？

Spark访问OSS数据采用什么方式？

展开全部

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

展开全部

还有其他疑问?