【独家】1号店电商大数据挖掘实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

王答明:1号店IT资深经理,负责个性化推荐/大数据挖掘



大数据这个词为什么现在这么火,个人的理解是用一个新瓶装了很多旧酒,也就是说之前的很多技术,概念或者应用现在都可以往大数据这个词里放,比如分布式处理,数据挖掘,机器学习,文本处理,语音/图像处理,个性化推荐,知识图谱,当然也包括传统的一些BI分析系统等等,因为这些技术存在的时间已经不短,而且之前在很多行业都或多或少得到了一些应用。


但随着互联网的发展,数据采集能力和数据处理能力的飞快提升,这些相关的技术和应用得到进一步发展和融合,进而进化出了更多更丰富的数据应用。不管大数据的应用是什么,一般的处理手段无外乎先收集到你可能收集的各种源数据,经过数据清洗结构化等进行存储,在之上做特征工程,做机器学习数据挖掘算法,最后挖出一些基本的规律来,大多有事物之间的相似度,关联度,事物之间的结构关系比如层级,时序性等。然后,我们可以在这些规律的基础上做大数据服务,比如用来预测,用来给人提供决策建议,决策支撑,甚至通过系统化来使得整个决策自动化和大规模化,还可以使系统具有学习更新的能力来达到工业级的智能应用。最终可以为企业,或者面向用户的app提供真实的价值。


对电商行业来说,本身属于互联网领域内,所以如何有效的挖掘数据,利用数据对自身而言是个非常重要的战略方向。比较而言,个性化推荐/精准营销是已经在业界广泛验证和实现层相对成熟的应用之一,但因为其架构和算法的复杂度依旧相对较高,离真正的成熟还有很远距离,比如我们能看到国外主要是亚马逊几年前公开过自己销售靠推荐而来的占比,从国内的实践来看,大型电商也基本都是从11/12年开始启动这方面的技术探索,而且不同的公司因为考虑对自身的价值从而所做的投入也不尽相同。


另外,大数据挖掘在电商的应用还有销量预测,品类管理和动态定价,这三个方面也有相互关联,在电商时代,销量预测可以突破仅仅靠历史销售数据来建模的限制,用户的各种行为数据,比如浏览,搜索,收藏,购物车等等都可以输入预测模型,可以利用的数据甚至还有竞争对手可以获取的数据,当然建模系统要能够规模化来处理大量多样的数据源。类似比如自动化的品类管理,以及利用站内站外数据进行系统化建模来自动定价。对于电商其他的核心系统,比如仓储管理,物流,大数据同样有着重要的意义,比如利用某个区域的用户在网站上的实时行为数据,来对某个区域仓储做商品需求预测,可以提前一步运货到最后一公里,极大的提升物流效率。


接下来的部分着重阐述一下1号店在个性化方面的一些实践,从个性化对电商意义来讲,无疑要从用户体验和商业价值两个角度来看,而且不少场景下因为两者之间的矛盾,如何平衡是个相当复杂的问题。


1号店经过将近两年的研发,目前已经建立起相对完善的个性化精准平台,而且在用户各种购物流程,各个触点,以及对CRM,广告,市场活动等业务产生了根本的重构和变革。


目前为止,个性精准化平台也为1号店业务在各个指标上有较大的提升



这里列举一些基本的推荐栏位截图示例


搭配推荐是我们主要的推荐产品之一,在13年5月份第一次上线就在各个指标上比之前人工维护获得极大提升,值得一提的是不仅仅是覆盖度,点击率和转化率也提升了将近一倍,充分证明了算法的有效性。但不可避免的是,算法和数据相互依赖,对于13年初的小品类因为当时数据量不够,导致效果不明显,但整体上来说都是成倍的提升。


对于搭配推荐这个case, 我们从多个角度来进一步阐述:比如:


最早上线了基本的关联挖掘,只是利用了订单数据,效果明显;


然后在第二阶段我们利用了更多的数据比如购物车,数据量暴增,促使我们利用更有效并且能处理更大数据量的分布式FPgrowth算法;


到了第三个阶段,面对产品上继续存在的问题,我们继续利用更多数据比如同session浏览,并且为了解决时间序列和属性搭配等问题,进一步把时序挖掘和改造的泛化关联挖掘整合到fpgrowth里,进行算法的进一步创新,同时也解决了产品上的一些痛点,也使得业务指标得到进一步提升;通过这个例子,我们充分在实践中理解了产品,算法,数据联动的重要性,并获得深刻的感性认识。


这里再列举两个通过个性化推荐使得业务明显提升的例子,一个是首页topN推荐列表和限时抢购的ctr比较,一个是我们团购个性化排序线上A/B测试相对非个性化转化率提升的实践


正如前面所提到的,我们目前已经建立起相对完善的用户画像平台,这里跟传统CRM的用户视图做一个对比,可以这么理解:传统CRM主要通过分析用户生命周期,客户级别和RMF值等维度来了解自己的顾客,但最大的缺失是不知道下一步如何take action, 或者说无法设计出有效的action, 那么精准化正是解决了这个问题,通过我们描绘出用户的兴趣图谱,购物类型等等维度,系统可以全面的了解每个顾客从而提供千人千面的服务,不管是主站首页,app各个路径,或者是EDM,短信/微信等触点来充分的关怀用户,给每个用户VIP级别的1对1服务。目前1号店的用户画像系统利用实时大数据平台已经可以在毫秒级更新每一个人的兴趣图谱,最及时的捕捉每个顾客及时需求。


最近,我们又研发出了基于上下文的推荐产品,通过大数据挖掘的手段来分析不同商圈/小区,不同季节,用户使用的不同场景(比如工作时段,上下班,晚上临睡前等等)下的偏好特征,结合其个人用户画像来为顾客提供更加精准有效的个性化服务。并在一定程度上解决用户数据稀疏,冷启动等推荐领域一直比较头痛的问题。


总的来说,虽然在1号店我们在个性化推荐方向已经取得一定的进展,但毫无疑问未来需要探索尝试的依旧很多,大数据挖掘是个值得长期投入并持续优化的领域。到目前为止,1号店技术部已经建立起将近30人的算法架构团队来负责个性化推荐核心系统的研发,如果加上相关的应用团队,整体会超过50人。


从团队建设来看,这个方向当前在大型电商有过真正实践经验的人并不多,所以我们主要是招有较好的算法架构背景的同学,然后以内部培养为主。感兴趣的朋友欢迎发简历到zhongxiaodong@yhd.com,谢谢!



原文发布时间为:2014-08-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
13天前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
21天前
|
机器学习/深度学习 人工智能 供应链
别再靠拍脑袋进货了!用大数据让电商库存“自己会算”
别再靠拍脑袋进货了!用大数据让电商库存“自己会算”
135 10
|
2月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
130 8
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
4月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
3月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
3月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
3月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。

热门文章

最新文章