菜鸟—需求预测与分仓规划亚军——“天亮”团队赛后总结

简介: 在菜鸟—需求预测与分仓规划比赛上,“天亮”团队获得了亚军。“天亮”团队主要分享了团队的特征分析以及方案实现过程。

在菜鸟—需求预测与分仓规划比赛上,“天亮”团队获得了亚军。“天亮”团队主要分享了团队的特征分析以及方案实现过程。

背景介绍

此次比赛希望选手利用大数据技术预测商品的未来需求来优化整个菜鸟物流的供应链。比赛给出的数据包括商品的销量、价格品牌等信息,预测后两个星期的销量。

特征分析

通过观察一件商品的时序图,我们可以发现一件商品有上架时间,在双十一、双十二会有销量的突增,这些突增在时序的最后端,会对接下来两周的预测产生干扰。此次,训练样本采用滑窗法,主要有13个窗口,每个窗口有14天(不重叠)。第一个窗口作为线上预测的样本,第二个窗口作为线下评测系统的评价,后面的窗口作为线下模型的训练样本。

在特征提取过程中,赛方给出的数据包括label型的特征和数字型的特征。label型的数据,比如一些品牌有些类目型的数据,经典的处理方式是One-Hot编码,但是没有太大的意义。所以我们应该对其进行统计获得该品牌在整个历史时期的统计特征,包括总和、方差、均值。同样的,对数字型特征也会进行同样的处理。此外,还会加入一些先验知识补充规则特征,涉及一些业务特征。有一个比较明显的特征是某个商品在一段时间内的销量占所有产品销量的百分比。

通过观察数字型特征,我们可以发现一个很严重的常规效应:很多商品的销量很少但是有少部分商品的销量特别大。这有很明显的一个区分性,可以用于分类。但是并不适合回归,所以需要进行Log平滑处理。

在数据清洗方面,直接剔除了双十一、双十二的销量数据。细节方面,对这两个时序进行遍历,根据某个销量大于阈值的情况进行替换。

方案设计

有了线下评测和特征之后,就可以设计方案了。为了提升建模的效果,额外增加了两个过程:样本选择,特征选择。样本选择是通过训练模型继续对训练样本进行预测,剔除训练误差较大的一些样本。特征选择是用xgboost训练出一些特征的重要性,选取了top 50的特征放入线性模型。

针对此次比赛设定了两条显著的规则:统计预测时间点前两周的销量均值,取其最小值乘以14作为后期的一个预测,这是因为在双十一之后销量会出现下滑,如果不引入人为的先验知识,模型效果较差;基于权重加权的滑窗技术,首先剔除促销数据,假设销量是大于均值的三个标准差的话用均值替换,寻找与预测实际窗比较接近的时间窗,将这几个时间窗均值进行加权,权值参数是根据时间长度和标准化的和进行倒数。

除此之外,基于官方的评价函数进行模型自定制,“天亮”团队自定制了一个线性模型。由于传统模型用的是RMSE,与官方函数不同,所以采用了SGD随机梯度下降法进行优化训练,但由于平台的约束(可能是安全性问题),导致MapReduce无法不断迭代。这个平台只允许调用一次MapReduce过程,所以把模型的训练迭代放在Reduce中实现,但是可以用Map做一个具体分发的过程。将数据分为10份,每份数据中训练出一个线性模型,最终将权重均值加权。

GBDT的窗口框架每次迭代分为三个步骤:对损失函数求梯度,用决策树去拟合函数梯度,再用一维线性搜索寻找最优步长。用决策树去拟合函数梯度时,关键是优化树模型、叶子节点的结构参数。假设训练样本用到某个节点的样本,样本形成一个集合,对其进行目标值的排序,在过程中可以消除评价函数中Max符号,最终对进行求导,根据公式做临界值的选择,即从负号到正号的两个临界点,取损失较小的临界点作为叶子节点的T值。融合规则和模型的过程中需要进行微调,调整模型融合的权重。

总结和展望

充分利用模型的差异性和融合会产生比最优单模型最好的效果。基于特征选择和样本选择的过程实际上能进一步提升机器学习的效果。

如果菜鸟提供更多业务知识,能够设计出更多稳定的物流规则、先验知识,效果会变得更好。
相关文章
|
8月前
高效团队的实战-自如OKR实景 | 彭文华
高效团队的实战-自如OKR实景 | 彭文华
|
11月前
|
存储 数据挖掘 大数据
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—才贝信息:求职路上的得力助手
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—才贝信息:求职路上的得力助手
|
11月前
|
供应链 大数据 数据挖掘
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—华创加:拓客无烦恼,10万+供应商入驻华创加实现精准营
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—华创加:拓客无烦恼,10万+供应商入驻华创加实现精准营
|
机器学习/深度学习 人工智能 JavaScript
洞悉2020年数据团队建设,我们和清华、领英一起搞了个大事情,你也可以参与!
洞悉2020年数据团队建设,我们和清华、领英一起搞了个大事情,你也可以参与!
196 0
|
人工智能 编解码 达摩院
为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案
被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频目标分割领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验,为本届大赛参赛选手提供 “他山之石”。
为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案
|
人工智能 安全 PyTorch
阿里云创新产品团队招聘!一大波岗位呼唤你
收入和情怀,诗和远方,我们都给你。
1430 0
阿里云创新产品团队招聘!一大波岗位呼唤你
|
程序员
评“产品经理是个什么货色”,互联网营销
  今天无意中看到一篇讲述产品经理的短文“产品经理是个什么货色”,标题的攻击性比较强,原文比较短,故粘贴过来供大家分享,顺便侃侃。   原文如下:    产品经理是个什么货色    在腾讯微博里面看到的    狼太木哥哥转播 : 很强王小楠:别整天产品经理产品经理,你就是个破画图的!    设计你...
1121 0
|
新零售 算法 机器人
报告!这群阿里工程师在偷偷养猪
今天下午,期盼已久的阿里巴巴技术脱贫大会就要开始了。 很多人都知道,我们在1年前就投入100亿元人民币成立阿里巴巴脱贫基金。从教育到健康,再到女性、生态和电商扶贫,这五个方向分别由五位阿里合伙人直接牵头。
3014 0
|
大数据 Java 程序员
北上深程序猿纷纷“入杭”!杭州工程师人才净流入率全国第一
在继北京西二旗程序员,上海张江码农,深圳南山技术男后,中国工程师群体又多了一个冉冉升起的门派:杭派工程师。 据猎聘《2018中国重点城市工程师大数据与调研报告》显示,2017年一季度到2018年二季度期间,互联网工程师人才净流入分布情况,杭州以12.46%的流入率排名第一。
1258 0
|
程序员
北上深程序猿纷纷入杭!杭州互联网工程师人才净流入率全国第一
继北京西二旗程序员,上海张江码农,深圳南山技术男后,中国工程师群体又多了一个冉冉升起的门派:杭派工程师。
1901 0