开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

如何使用零售数据模拟如何使用DDI的notebook和Facebook prophet来对消费

如何使用零售数据模拟如何使用DDI的notebook和Facebook prophet来对消费

展开
收起
游客lmkkns5ck6auu 2022-07-28 16:32:33 406 0
1 条回答
写回答
取消 提交回答
  • 我们需要的数据已经上传到OSS的Bucket里面,接下来,开始对消费者的需求进了行建模和预测。当数据上传到OSS上,之后可以在DDI的Notebook上对数据进行分析。

    本次使用的数据集是2OI2年到2017年,10个商店中的50商品销售数据。数据包含四列。第一列是日期;第二列是商店的ID(1-10);第三列是商品的ID(1-50);第四列是当日商品的销售量。

    实验目的是预测未来三个月,这些商品在各个商店的销量,对商店未来的库存备货提供指导。

    1)在默认配置下,YARN分配的executor CPU为1 core, memory为2G,为了让我们的分析更快一些,我们可以适度调高分配的cpj核心数和分配的内存大小。

    2)通常,在读取大量CSV格式的数据之前,免去Spark自动推测数据类型的繁重工作,会预先定义Schema。这项简单预处理可以让Spark更加快速的读入数据。

    3)定义Schema之后,将训练数据读取到spark的DataFrame中。

    4)读取DataFrame之后,通过熟悉的SQL语句对数据进行分析,可以使用dataframe的createOrReplaceTempView方法,创建一个临时的视图。

    5)创建view之后,对dataframe中的数据进行分析。首先分析销售数据随年份的走势。在过去几年商店的销售额稳步增长,总体呈现线性增长的趋势。在预测下一年的销售额时可以参考过去几年的增长率。

    以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:45:26
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Facebook iOS App技术演化十年之路 立即下载
Facebook Online Schema Change原理和大规模表结构变更最佳实践 立即下载
Python 系列直播——深入Python与日志服务,玩转大规模数据分析处理实战第二讲 立即下载