【独家】1号店电商大数据挖掘实践-阿里云开发者社区

【独家】1号店电商大数据挖掘实践

2017-05-02 2009

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

王答明：1号店IT资深经理，负责个性化推荐/大数据挖掘

大数据这个词为什么现在这么火，个人的理解是用一个新瓶装了很多旧酒，也就是说之前的很多技术，概念或者应用现在都可以往大数据这个词里放，比如分布式处理，数据挖掘，机器学习，文本处理，语音/图像处理，个性化推荐，知识图谱，当然也包括传统的一些BI分析系统等等，因为这些技术存在的时间已经不短，而且之前在很多行业都或多或少得到了一些应用。

但随着互联网的发展，数据采集能力和数据处理能力的飞快提升，这些相关的技术和应用得到进一步发展和融合，进而进化出了更多更丰富的数据应用。不管大数据的应用是什么，一般的处理手段无外乎先收集到你可能收集的各种源数据，经过数据清洗结构化等进行存储，在之上做特征工程，做机器学习数据挖掘算法，最后挖出一些基本的规律来，大多有事物之间的相似度，关联度，事物之间的结构关系比如层级，时序性等。然后，我们可以在这些规律的基础上做大数据服务，比如用来预测，用来给人提供决策建议，决策支撑，甚至通过系统化来使得整个决策自动化和大规模化，还可以使系统具有学习更新的能力来达到工业级的智能应用。最终可以为企业，或者面向用户的app提供真实的价值。

对电商行业来说，本身属于互联网领域内，所以如何有效的挖掘数据，利用数据对自身而言是个非常重要的战略方向。比较而言，个性化推荐/精准营销是已经在业界广泛验证和实现层相对成熟的应用之一，但因为其架构和算法的复杂度依旧相对较高，离真正的成熟还有很远距离，比如我们能看到国外主要是亚马逊几年前公开过自己销售靠推荐而来的占比，从国内的实践来看，大型电商也基本都是从11/12年开始启动这方面的技术探索，而且不同的公司因为考虑对自身的价值从而所做的投入也不尽相同。

另外，大数据挖掘在电商的应用还有销量预测，品类管理和动态定价，这三个方面也有相互关联，在电商时代，销量预测可以突破仅仅靠历史销售数据来建模的限制，用户的各种行为数据，比如浏览，搜索，收藏，购物车等等都可以输入预测模型，可以利用的数据甚至还有竞争对手可以获取的数据，当然建模系统要能够规模化来处理大量多样的数据源。类似比如自动化的品类管理，以及利用站内站外数据进行系统化建模来自动定价。对于电商其他的核心系统，比如仓储管理，物流，大数据同样有着重要的意义，比如利用某个区域的用户在网站上的实时行为数据，来对某个区域仓储做商品需求预测，可以提前一步运货到最后一公里，极大的提升物流效率。

接下来的部分着重阐述一下1号店在个性化方面的一些实践，从个性化对电商意义来讲，无疑要从用户体验和商业价值两个角度来看，而且不少场景下因为两者之间的矛盾，如何平衡是个相当复杂的问题。

1号店经过将近两年的研发，目前已经建立起相对完善的个性化精准平台，而且在用户各种购物流程，各个触点，以及对CRM,广告，市场活动等业务产生了根本的重构和变革。

目前为止，个性精准化平台也为1号店业务在各个指标上有较大的提升

这里列举一些基本的推荐栏位截图示例

搭配推荐是我们主要的推荐产品之一，在13年5月份第一次上线就在各个指标上比之前人工维护获得极大提升，值得一提的是不仅仅是覆盖度，点击率和转化率也提升了将近一倍，充分证明了算法的有效性。但不可避免的是，算法和数据相互依赖，对于13年初的小品类因为当时数据量不够，导致效果不明显，但整体上来说都是成倍的提升。

对于搭配推荐这个case, 我们从多个角度来进一步阐述：比如：

最早上线了基本的关联挖掘，只是利用了订单数据，效果明显;

然后在第二阶段我们利用了更多的数据比如购物车，数据量暴增，促使我们利用更有效并且能处理更大数据量的分布式FPgrowth算法;

到了第三个阶段，面对产品上继续存在的问题，我们继续利用更多数据比如同session浏览，并且为了解决时间序列和属性搭配等问题，进一步把时序挖掘和改造的泛化关联挖掘整合到fpgrowth里，进行算法的进一步创新，同时也解决了产品上的一些痛点，也使得业务指标得到进一步提升；通过这个例子，我们充分在实践中理解了产品，算法，数据联动的重要性，并获得深刻的感性认识。

这里再列举两个通过个性化推荐使得业务明显提升的例子，一个是首页topN推荐列表和限时抢购的ctr比较，一个是我们团购个性化排序线上A/B测试相对非个性化转化率提升的实践。

正如前面所提到的，我们目前已经建立起相对完善的用户画像平台，这里跟传统CRM的用户视图做一个对比，可以这么理解：传统CRM主要通过分析用户生命周期，客户级别和RMF值等维度来了解自己的顾客，但最大的缺失是不知道下一步如何take action, 或者说无法设计出有效的action, 那么精准化正是解决了这个问题，通过我们描绘出用户的兴趣图谱，购物类型等等维度，系统可以全面的了解每个顾客从而提供千人千面的服务，不管是主站首页，app各个路径，或者是EDM，短信/微信等触点来充分的关怀用户，给每个用户VIP级别的1对1服务。目前1号店的用户画像系统利用实时大数据平台已经可以在毫秒级更新每一个人的兴趣图谱，最及时的捕捉每个顾客及时需求。

最近，我们又研发出了基于上下文的推荐产品，通过大数据挖掘的手段来分析不同商圈/小区，不同季节，用户使用的不同场景（比如工作时段，上下班，晚上临睡前等等）下的偏好特征，结合其个人用户画像来为顾客提供更加精准有效的个性化服务。并在一定程度上解决用户数据稀疏，冷启动等推荐领域一直比较头痛的问题。

总的来说，虽然在1号店我们在个性化推荐方向已经取得一定的进展，但毫无疑问未来需要探索尝试的依旧很多，大数据挖掘是个值得长期投入并持续优化的领域。到目前为止，1号店技术部已经建立起将近30人的算法架构团队来负责个性化推荐核心系统的研发，如果加上相关的应用团队，整体会超过50人。

从团队建设来看，这个方向当前在大型电商有过真正实践经验的人并不多，所以我们主要是招有较好的算法架构背景的同学，然后以内部培养为主。感兴趣的朋友欢迎发简历到zhongxiaodong@yhd.com,谢谢！

原文发布时间为：2014-08-14

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

【独家】1号店电商大数据挖掘实践

大数据文摘

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【独家】1号店电商大数据挖掘实践

大数据文摘

热门文章

最新文章

相关课程

相关电子书