备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

2022-05-09 457

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文从零售业需求预测痛点、商店商品模型预测的实践演示，介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。

作者：李锦桂阿里云开源大数据平台开发工程师

本文从零售业需求预测痛点、商店商品模型预测的实践演示，介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。

本文分为以下四部分：

1.消费者需求预测对零售业的重要性

2.数据的准备与可视化

3.基于DDI建立预测单个商店-商品模型

4.将预测模型扩展到每个商店-商品的预测

一、消费者需求预测对零售业的重要性

首先，需求预测对零售商至关重要。如果商店的商品过多，货架和仓库的空间紧张，产品容易过期，财务资源被库存束缚。零售商无法利用制造商带来的新机会，从而错过消费模式的转变。

由于商店内商品过少，客户无法从上商店内买到需要的商品。不但会造成零售商的收入损失，而且随着时间的推移，消费者的失望情绪，会驱使消费者转向竞争对手。

综上所述，预测消费者需求的准确性和及时性，对零售商非常重要。

二、数据的准备与可视化

下面我们使用零售数据模拟如何使用DDI的notebook和Facebook prophet来对消费者的需求进行建模和预测。

现在我们需要的数据已经上传到了OSS的Bucket里面，接下来，开始对消费者的需求进行建模和预测。当数据上传到OSS上之后，可以在DDI的Notebook上对数据进行分析和建模。

本次使用的数据集是2012年到2017年，10个商店中的50商品销售数据。数据包含四列。第一列是日期；第二列是商店的ID（1-10）；第三列是商品的ID（1-50）；第四列是当日商品的销售量。

实验目的是预测未来三个月，这些商品在各个商店的销量，对商店未来的库存备货提供指导。

在默认配置下，YARN分配的executor CPU为1core，memory为2G，为了让我们的分析更快一些，我们可以适度调高分配的cpu核心数和分配的内存大小。

通常，在读取大量CSV格式的数据之前，会预先定义Schema。这项简单预处理，可以免去Spark自动推测数据类型的繁重工作，让Spark更加快速的读入数据。

定义Schema之后，将训练数据读取到spark的DataFrame中。

读取DataFrame之后，通过熟悉的SQL语句对数据进行分析，可以使用dataframe的createOrReplaceTempView方法，创建一个临时的视图。

创建view之后，对dataframe中的数据进行分析。首先分析销售数据随年份的走势。从图表可以看出，在过去几年，商店的销售额稳步增长，总体呈现线性增长的趋势。在预测下一年的销售额时，可以参考过去几年的增长率。

三、基于DDI建立预测单个商店-商品模型

与此同时，商品销售往往有很强的季节性，特别是服装行业。T恤在夏季的销售额肯定高于羽绒服的销售额。因此，在预测商品的销售额时，季节性是不可忽略的因素。

如上图所示，从2013年到2017年，商品销量不断上涨。一年之中，商品的销售额呈现很强的周期性。

在12月或1月时，商品销量到达波谷，随着月份不断攀升，7月销量到达波峰。所以在进行建模时，月份是很重要的特征之一。

在上图中，0代表的周一，1代表周二……销售额在每周七天，也呈现出很强的周期性，在周日的销售额达到最高，周一跌到最低，然后慢慢回到高位。

Prophet是facebook开源的一个时间序列预测算法。Prophet的使用非常简单，只需要输入已知的时间序列的时间戳和相应的值以及需要预测的时间序列的长度，Prophet就能输出未来的时间序列走势。

接下来，对所有商店和商品的组合进行预测之前。先选择store 1和item 1进行预测，熟悉Prophet的使用。

预测第一步，组装历史数据用于模型训练。Prophet的模型比较简单，相当于Prophet的对象。在这个对象里，把growth定义为线性。

在数据探索阶段，得到的结论是，一个商品的销量，不但有周与周之间的周期性，而且有月份之间的周期性。所以weekly，yearly作为true。然后使用fit方法，对模型进行训练。

训练之后，可以使用这个模型预测未来90天的走势。

从上图可以看到，商品整体销量呈逐年增加的趋势。商品销量受季节和节假日变化影响显著。

最后，把真实数据和未来90天的预测数据它拼接到一起。真实数据从2017年到2018年的1月。未来90天的预测数据，从2018年1月到4月。如上图所示，带有黑点的数据是真实数据。

通过获取历史数据和预测数据的准确性。可以预测一些准确性指标，比如MAE、MSE和RMSE。

四、将预测模型扩展到每个商店-商品的预测

接下来，开始建立更加完善的模型对商店（10个商店）和商品（50件商品）的所有组合进行预测。建立模型的第一步是准备数据。

训练数据主要有四列。对应的是每一种商店商品的组合，在特定日期的销量。然后，针对这些数据进行建模。

创建一个Prophet对象，建立模型。weekly和yearly被设为true，然后预测未来90天的趋势。

从预测数据中，抽取出一些需要的字段和历史数据。将历史数据和预测数据拼接到一起，设置结果数据中的商店ID和商品ID，返回数据集。将模型训练应用到每个商店和商品组合，将预测结果写入OSS。

接下来，把OSS中的预测结果，加载到spark里。选择时间戳，商店和的预测值。选择日期应大于2018年1月1号。根据时间和商店组合。预测的商店销售额，如上图所示。

接下来，开始计算每个模型的测试指标。首先，定义一个UDF用于计算模型的测试指标。获取训练日期，计算训练指标，进行组装。

上图是针对10家商店的50种商品形成的预测结果。最终完成了每个商店和商品的组合，以及销售额的模型建立与预测。

应用实践演示视频：https://developer.aliyun.com/live/248894

产品技术咨询

https://survey.aliyun.com/apps/zhiliao/VArMPrZOR

加入技术交流群

文章标签：

开源大数据平台 E-MapReduce

对象存储

数据可视化

分布式计算

SQL

资源调度

对象存储

Spark

算法

大数据

关键词：

Databricks 数据洞察数据

Databricks 数据洞察应用

Databricks 数据洞察应用实践

Databricks 数据洞察公开课

Databricks 数据洞察databricks数据洞察公开课

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

灵杰开发者

目录

相关文章

架构师研究会

|

12月前

|

存储分布式计算数据挖掘

【数据湖仓架构】数据湖和仓库：Databricks 和 Snowflake

【数据湖仓架构】数据湖和仓库：Databricks 和 Snowflake

架构师研究会

562 1 1

架构师研究会

|

12月前

|

存储 SQL 分布式计算

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

架构师研究会

414 0 0

q7s2kces74wvy

|

机器学习/深度学习存储数据采集

使用Databricks进行营销效果归因分析的应用实践| 学习笔记

快速学习使用Databricks进行营销效果归因分析的应用实践

q7s2kces74wvy

155 0 0

使用Databricks进行营销效果归因分析的应用实践| 学习笔记

q7s2kces74wvy

|

存储机器学习/深度学习弹性计算

使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践| 学习笔记（二）

快速学习使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践

q7s2kces74wvy

378 0 0

使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践| 学习笔记（二）

灵杰开发者

|

消息中间件存储 SQL

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生，发布到流数据服务 Confluent，通过Databricks Structured Streaming进行实时数据处理，存储到LakeHouse，并使用spark和spark sql进行分析的应用实践。

灵杰开发者

612 0 0

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

灵杰开发者

|

机器学习/深度学习存储数据采集

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本文介绍如何使用Databricks进行广告效果归因分析，完成一站式的部署机器学习，包括数据ETL、数据校验、模型训练/评测/应用等全流程。

灵杰开发者

603 0 0

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

灵杰开发者

|

机器学习/深度学习存储弹性计算

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台，实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

灵杰开发者

867 0 0

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

扬流

|

存储 SQL JSON

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。

扬流

806 0 0

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

扬流

|

存储数据采集机器学习/深度学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

扬流

1051 0 0

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

扬流

|

SQL 存储分布式计算

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面，介绍Delta Lake的演进和优势。

扬流

754 0 0

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

助力云上开源生态 - 阿里云开源大数据平台的发展

Apache Spark 3.0 将内置支持 GPU 调度

E-MapReduce的HBase集群使用Hue

使用Ranger对Hive数据进行脱敏

【译】Hadoop发生了什么？我们该如何做？

用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络

E-MapReduce 4.0产品新特性

欢迎加入Spark中国社区

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

列式存储系列（二）: Vertica

基于阿里云向量检索 Milvus 版和 LangChain 快速构建 LLM 问答系统

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

Apache Hadoop入门指南：搭建分布式大数据处理平台

Paimon 与 Spark 的集成（二）：查询优化

1688API接口推荐：1688口令转换真实链接接口

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688按图搜索拍立淘数据接口

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成（RAG）系统

EMR Notebook 开启公测，提供交互式数据分析平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

相关课程

更多

Databricks数据洞察公开课

大数据Flink实时旅游平台环境篇 2020版

大数据知识图谱—一文读懂云原生一体化数仓

基于MaxCompute的热门话题分析

企业运维训练营之大数据EMR原理与实践

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

相关电子书

更多

Databricks数据洞察：从入门到实践

哈啰出行基于阿里云数据湖构建实践

MaxCompute 2.0：阿里巴巴的大数据进化之路

相关实验场景

更多

基于DTS构建一站式实时数据服务

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

倚天大数据电商数据分析快速实践

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考