【独家】1号店电商大数据挖掘实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

王答明:1号店IT资深经理,负责个性化推荐/大数据挖掘



大数据这个词为什么现在这么火,个人的理解是用一个新瓶装了很多旧酒,也就是说之前的很多技术,概念或者应用现在都可以往大数据这个词里放,比如分布式处理,数据挖掘,机器学习,文本处理,语音/图像处理,个性化推荐,知识图谱,当然也包括传统的一些BI分析系统等等,因为这些技术存在的时间已经不短,而且之前在很多行业都或多或少得到了一些应用。


但随着互联网的发展,数据采集能力和数据处理能力的飞快提升,这些相关的技术和应用得到进一步发展和融合,进而进化出了更多更丰富的数据应用。不管大数据的应用是什么,一般的处理手段无外乎先收集到你可能收集的各种源数据,经过数据清洗结构化等进行存储,在之上做特征工程,做机器学习数据挖掘算法,最后挖出一些基本的规律来,大多有事物之间的相似度,关联度,事物之间的结构关系比如层级,时序性等。然后,我们可以在这些规律的基础上做大数据服务,比如用来预测,用来给人提供决策建议,决策支撑,甚至通过系统化来使得整个决策自动化和大规模化,还可以使系统具有学习更新的能力来达到工业级的智能应用。最终可以为企业,或者面向用户的app提供真实的价值。


对电商行业来说,本身属于互联网领域内,所以如何有效的挖掘数据,利用数据对自身而言是个非常重要的战略方向。比较而言,个性化推荐/精准营销是已经在业界广泛验证和实现层相对成熟的应用之一,但因为其架构和算法的复杂度依旧相对较高,离真正的成熟还有很远距离,比如我们能看到国外主要是亚马逊几年前公开过自己销售靠推荐而来的占比,从国内的实践来看,大型电商也基本都是从11/12年开始启动这方面的技术探索,而且不同的公司因为考虑对自身的价值从而所做的投入也不尽相同。


另外,大数据挖掘在电商的应用还有销量预测,品类管理和动态定价,这三个方面也有相互关联,在电商时代,销量预测可以突破仅仅靠历史销售数据来建模的限制,用户的各种行为数据,比如浏览,搜索,收藏,购物车等等都可以输入预测模型,可以利用的数据甚至还有竞争对手可以获取的数据,当然建模系统要能够规模化来处理大量多样的数据源。类似比如自动化的品类管理,以及利用站内站外数据进行系统化建模来自动定价。对于电商其他的核心系统,比如仓储管理,物流,大数据同样有着重要的意义,比如利用某个区域的用户在网站上的实时行为数据,来对某个区域仓储做商品需求预测,可以提前一步运货到最后一公里,极大的提升物流效率。


接下来的部分着重阐述一下1号店在个性化方面的一些实践,从个性化对电商意义来讲,无疑要从用户体验和商业价值两个角度来看,而且不少场景下因为两者之间的矛盾,如何平衡是个相当复杂的问题。


1号店经过将近两年的研发,目前已经建立起相对完善的个性化精准平台,而且在用户各种购物流程,各个触点,以及对CRM,广告,市场活动等业务产生了根本的重构和变革。


目前为止,个性精准化平台也为1号店业务在各个指标上有较大的提升



这里列举一些基本的推荐栏位截图示例


搭配推荐是我们主要的推荐产品之一,在13年5月份第一次上线就在各个指标上比之前人工维护获得极大提升,值得一提的是不仅仅是覆盖度,点击率和转化率也提升了将近一倍,充分证明了算法的有效性。但不可避免的是,算法和数据相互依赖,对于13年初的小品类因为当时数据量不够,导致效果不明显,但整体上来说都是成倍的提升。


对于搭配推荐这个case, 我们从多个角度来进一步阐述:比如:


最早上线了基本的关联挖掘,只是利用了订单数据,效果明显;


然后在第二阶段我们利用了更多的数据比如购物车,数据量暴增,促使我们利用更有效并且能处理更大数据量的分布式FPgrowth算法;


到了第三个阶段,面对产品上继续存在的问题,我们继续利用更多数据比如同session浏览,并且为了解决时间序列和属性搭配等问题,进一步把时序挖掘和改造的泛化关联挖掘整合到fpgrowth里,进行算法的进一步创新,同时也解决了产品上的一些痛点,也使得业务指标得到进一步提升;通过这个例子,我们充分在实践中理解了产品,算法,数据联动的重要性,并获得深刻的感性认识。


这里再列举两个通过个性化推荐使得业务明显提升的例子,一个是首页topN推荐列表和限时抢购的ctr比较,一个是我们团购个性化排序线上A/B测试相对非个性化转化率提升的实践


正如前面所提到的,我们目前已经建立起相对完善的用户画像平台,这里跟传统CRM的用户视图做一个对比,可以这么理解:传统CRM主要通过分析用户生命周期,客户级别和RMF值等维度来了解自己的顾客,但最大的缺失是不知道下一步如何take action, 或者说无法设计出有效的action, 那么精准化正是解决了这个问题,通过我们描绘出用户的兴趣图谱,购物类型等等维度,系统可以全面的了解每个顾客从而提供千人千面的服务,不管是主站首页,app各个路径,或者是EDM,短信/微信等触点来充分的关怀用户,给每个用户VIP级别的1对1服务。目前1号店的用户画像系统利用实时大数据平台已经可以在毫秒级更新每一个人的兴趣图谱,最及时的捕捉每个顾客及时需求。


最近,我们又研发出了基于上下文的推荐产品,通过大数据挖掘的手段来分析不同商圈/小区,不同季节,用户使用的不同场景(比如工作时段,上下班,晚上临睡前等等)下的偏好特征,结合其个人用户画像来为顾客提供更加精准有效的个性化服务。并在一定程度上解决用户数据稀疏,冷启动等推荐领域一直比较头痛的问题。


总的来说,虽然在1号店我们在个性化推荐方向已经取得一定的进展,但毫无疑问未来需要探索尝试的依旧很多,大数据挖掘是个值得长期投入并持续优化的领域。到目前为止,1号店技术部已经建立起将近30人的算法架构团队来负责个性化推荐核心系统的研发,如果加上相关的应用团队,整体会超过50人。


从团队建设来看,这个方向当前在大型电商有过真正实践经验的人并不多,所以我们主要是招有较好的算法架构背景的同学,然后以内部培养为主。感兴趣的朋友欢迎发简历到zhongxiaodong@yhd.com,谢谢!



原文发布时间为:2014-08-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
30498
分享
相关文章
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
从数据海洋中“淘金”——数据挖掘的魔法与实践
从数据海洋中“淘金”——数据挖掘的魔法与实践
50 13
如何用大数据与机器学习挖掘瞪羚企业认定标准
本文探讨如何利用大数据与机器学习技术挖掘瞪羚企业认定标准。通过阿里云的大数据平台和政策宝资源整合能力,结合机器学习算法分析政策文本,提取关键信息,助力企业精准理解认定标准。文章对比了传统获取方式的局限性与新技术的优势,并以案例说明政策宝在申报中的作用,强调数据整合、模型选择及数据安全的重要性,为企业提供发展方向和政策支持。
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
天翼云基于 Apache Doris 成功落地项目已超 20 个,整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
云端智链:挖掘云计算中的大数据潜能
云端智链:挖掘云计算中的大数据潜能
67 21
vivo基于Paimon的湖仓一体落地实践
本文整理自vivo互联网大数据专家徐昱在Flink Forward Asia 2024的分享,基于实际案例探讨了构建现代化数据湖仓的关键决策和技术实践。内容涵盖组件选型、架构设计、离线加速、流批链路统一、消息组件替代、样本拼接、查询提速、元数据监控、数据迁移及未来展望等方面。通过这些探索,展示了如何优化性能、降低成本并提升数据处理效率,为相关领域提供了宝贵的经验和参考。
518 3
vivo基于Paimon的湖仓一体落地实践
StarRocks 在爱奇艺大数据场景的实践
本文介绍了爱奇艺大数据OLAP服务负责人林豪在StarRocks年度峰会上的分享,重点讲述了爱奇艺OLAP引擎的演进及引入StarRocks后的显著效果。在广告业务中,StarRocks替换Impala+Kudu后,接口性能提升400%,P90查询延迟缩短4.6倍;在“魔镜”数据分析平台中,StarRocks替代Spark达67%,P50查询速度提升33倍,P90提升15倍,节省4.6个人天。未来,爱奇艺计划进一步优化存算一体和存算分离架构,提升整体数据处理效率。
StarRocks 在爱奇艺大数据场景的实践
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
278 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
239 3

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等