如何使用零售数据模拟如何使用DDI的notebook和Facebook prophet来对消费
我们需要的数据已经上传到OSS的Bucket里面,接下来,开始对消费者的需求进了行建模和预测。当数据上传到OSS上,之后可以在DDI的Notebook上对数据进行分析。
本次使用的数据集是2OI2年到2017年,10个商店中的50商品销售数据。数据包含四列。第一列是日期;第二列是商店的ID(1-10);第三列是商品的ID(1-50);第四列是当日商品的销售量。
实验目的是预测未来三个月,这些商品在各个商店的销量,对商店未来的库存备货提供指导。
1)在默认配置下,YARN分配的executor CPU为1 core, memory为2G,为了让我们的分析更快一些,我们可以适度调高分配的cpj核心数和分配的内存大小。
2)通常,在读取大量CSV格式的数据之前,免去Spark自动推测数据类型的繁重工作,会预先定义Schema。这项简单预处理可以让Spark更加快速的读入数据。
3)定义Schema之后,将训练数据读取到spark的DataFrame中。
4)读取DataFrame之后,通过熟悉的SQL语句对数据进行分析,可以使用dataframe的createOrReplaceTempView方法,创建一个临时的视图。
5)创建view之后,对dataframe中的数据进行分析。首先分析销售数据随年份的走势。在过去几年商店的销售额稳步增长,总体呈现线性增长的趋势。在预测下一年的销售额时可以参考过去几年的增长率。
以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。