【智能推荐系列公开课讲义④】7天搭建电商个性化推荐场景和最佳实践

简介: 阿里巴巴搜索推荐产品团队带来系列公开课,聊聊怎样结合实际场景,嵌入智能推荐,搭建“千人千面”的分发体系,使产品价值最大化。每期20分钟,10课时,修炼推荐硬功夫。

内容要点

本文主要以电商行业为例,从服务搭建流程、推荐测试流程、最佳实践分享适配的智能推荐快速搭建方式和实践策略。

服务搭建流程


1.jpg
智能推荐作为一款大数据应用产品,数据是第一生产力,如果在没有任何数据的情况下,想做千人千面的推荐,是不太可能的。数据对于整个模型而言,都是非常重要的。智能推荐所需要的数据,分为三类,user,即推荐面向的终端用户的信息;item,即要推荐的内容,例如在电商行业就是商品;behavior,即行为,指发生在user和item之间的交互动作,在平台上,消费者的消费偏好,商品的用户喜好画像,都可通过behavior来表征。

对于智能推荐的模型来说,一方面依赖海量的行为,进行模型计算,另一方面也会根据商品、用户的静态属性做分析推荐。无论是上报的全量数据表,还是后期的行为数据、用户数据、商品数据,经过全量和增量数据的合并,代表了AIRec底层的数据仓库,最终会提供推荐经过精排之后的结果集。从数据层到智能推荐的结果集,中间经历了模型的训练。

2.jpg
在开通智能推荐之前,需要做数据准备,包括user、item、behavior,之后进行实例的开通和配置。因为不同的行业具备不同的属性,优化的目标和所需的数据类型都有差别,所以智能推荐会按照行业模板来区分。

第二步,需要选择推荐服务类型,表示智能推荐的结果,有猜你喜欢、相关推荐,不同的类型应用的场景是不同的,需根据业务场景进行选择。

配置数据源,现有3种配置方式。之后进行模拟测试,后期也需要把实时变化的数据同步到智能推荐。通过SDK获取推荐结果。

数据准备阶段,所面向的user都是平台上的消费者,item就是商品,behavior就是用户和商品之间发生的关联动作。用户需要按照产品官网上的数据规范,结合每个字段的信息进行上报。

用户表

3.jpg
用户表是实现千人千面的前提,因为希望实现给每个消费者都提供不同的商品集,需确保访问的每一位用户都有自己唯一的身份标识,可通过user_id或者手机设备号确定。如用户是游客状态,则需通过其他方式确定用户身份,否则将只能获得热品的推荐。另外还需要提供用户特征的字段,包括性别、年龄及其他标签,将有利于基于画像特征分析的推荐。

物品表

4.jpg
代表商品的信息表。每一件商品也需要具备唯一性。智能推荐通过item_id和item_type来标记指定唯一的商品。Status表示了当前商品状态是否可被推荐,0表示不可推荐,1表示可推荐,可实施遇到商品上下架时的干预。Title表示对商品的标题描述,智能推荐会结合商品的描述进行语义分析。Scene_id表示物品可被投放的子场景ID,通过这个字段进行区分和效果观察,可根据推荐展现形态进行设计。Weight指item的权重值,当产品质量较好,或考虑到业务方、广告主的要求,可进行加权,初次接入时,建议不要加权,加权可能会导致模型结果受到人为的干扰,对效果产生负影响。pub_time代表内容发布时的时间戳(秒级),用于判断内容是否为新品,expire_time表示内容失效时间戳,失效后,商品将不会再被推荐,两者用于控制item时效性。category_level表示类目层级数,category_path表示类目路径。Tags表示标签,可加具体的类目含义,例如品牌信息、属性、适用人群,会被用于模型的训练,利于效果提升。

场景具体使用

比如淘宝首页猜你喜欢,有全部,表示所有商品都可出现,便宜好货则有价格门槛,只有低价产品会在这个tag页出现,以上两个就是完全不同的推荐场景。如果APP上有类似的形态,需要在商品选择、部署上进行场景区分。另外,包括购物车的猜你喜欢和首页的猜你喜欢也是不同的,投放端的不同,会带来用户心智、行为不同等,建议区分不同投放端进行效果观察。

行为表

5.jpg
行为表征了平台上用户的特征信息、倾向。每一条行为也需要定位到唯一的用户和商品。bhv_type表示行为类型,例如曝光、停留、点击、收藏、下载、购买、加购、评价等。trace_id表示请求追踪/埋点ID,用于在AB实验时区分,效果对比。trace_info表示请求埋点信息。bhv_time表示行为发生的时间戳。bhv_value表示行为详情,例如点击次数,停留时长,购买件数、购买金额等。曝光数据是必不可少的,如曝光之后,有停留、点击、收藏、下载等行为信息,可将曝光数据在模型中作为负例数据。

实例创建

6.jpg
智能推荐目前支持内容型、商品型、新闻型模板,如视频类型需要在内容型进行创建。

数据对接方式

以下情况,可启用第一种数据对接流程

  • 如行为数据没有埋点或需要进行埋点更新,可用定制版SDK进行埋点。
  • 如数据本身就用了友盟SDK采集,需要结合数据规范稍作修改就可完成数据上报。

A 数据对接流程
通过友盟SDK采集到的行为数据,需要在控制台进行配置即可自动同步,无需手动上报。
7.jpg

以下情况,可启用第二种数据对接流程

  • 如数据存在MaxCompute,需按照标准配置进行实例创建,后续同步SDK即可。

B 数据对接流程
8.jpg

以下情况,可启用第三种数据对接流程

  • 如数据没有存在MaxCompute或需要快速启动服务,可以使用服务端的SDK快速对接数据。

C 数据对接流程
9.jpg

结果获取

10.jpg
需指定场景、唯一用户、请求数量(一次最多请求50条结果),将返回唯一商品、位置信息、traceinfo,之后将进行行为数据的回传,行为类型、发生时间、场景、traceinfo,将这些行为信息回传给智能推荐后,就形成了流转的过程,促进结果的实时更新。

推荐测试流程


11.jpg
用户分为两种,一是老用户,存在行为;二是新用户,不存在行为,需根据两种不同的用户分层进行测试。推荐测试包括结果测试、功能测试、效果基础测试和效果进阶测试。在测试之后,将会正式接入线上流量,进行结果的持续观察和效果提升。

最佳实践策略


首页推荐可以结合长短期兴趣、用户画像分析进行集中展示。
12.jpg

数据圈选

1、提前过滤违规、质量差的商品
2、按照场景诉求进行选品分类,类似便宜好货,保证价格门槛
3、及时更新商品生命周期

特征丰富

1、具备商品的标题信息
2、上传商品的类目、品牌、风格、性别等信息
3、丰富曝光、点击、购买行为上报

电商行业经常遇到的问题

为应对用户疲劳,可进行打散和混排。
13.jpg
14.jpg

加入社群


点击订阅《阿里云搜索与推荐技术交流期刊》

扫码入群,了解更多资讯,获取课程资料

5aa4fa1e3fa84556b22e9ae931cffd4d.jpg

相关文章
|
存储 弹性计算 固态存储
阿里云服务器系统盘和数据盘云盘存储收费标准报价详单
阿里云服务器系统盘或数据盘可选高效云盘、SSD云盘、ESSD云盘或ESSD AutoPL,系统盘40G高效云盘一个月价格40元,按量价格是0.0196元/40GiB/小时,SSD云盘40G是40元/月,ESSD云盘PL0价格是一个月0.5元每GB
3984 0
阿里云服务器系统盘和数据盘云盘存储收费标准报价详单
|
机器人 测试技术 数据安全/隐私保护
IPPBX配置-如何实现FreePBX/VOS/鼎信网关外呼
目前市场上很多企业客户使用FreePBX来部署某些企业应用服务,有电话机器人,.有时,为了更加准确地实现计费功能,VOS作为一个计费和路由管理功能来和FreePBX集成对接。企业用户中,FreePBX或者外呼平台可以实现应用层的服务,包括智能外呼,呼叫中心外呼解决方案和企业IPPBX功能。今天,我们这里配置一个环境来说明企业内部分机如何通过FreePBX,VOS和鼎信通达网关实现落地服务。主要目的是为企业客户提供一个最完整和权威的FreePBX对接VOS和落地网关配置文档,以便让客户能够快速正确配置所有的相关信息。
1386 0
|
3月前
|
数据采集 人工智能 自然语言处理
52_领域模型:BioBERT与FinBERT
在大语言模型(LLM)快速发展的今天,通用模型如GPT-4、Claude 3和Gemini虽然在广泛任务上表现出色,但在专业领域如医疗、金融和法律等场景中,往往难以达到专业人员的期待精度。2025年的研究表明,领域特定的预训练模型在垂直领域任务中能够显著超越通用模型,为专业应用提供更可靠的支持。本文将深入剖析BioBERT、FinBERT等代表性领域模型的技术原理、训练方法、性能评估及实际应用案例,探讨垂直领域预训练的独特优势与未来发展趋势。
|
存储 缓存 安全
阿里云服务器内存型r7、r8a、r8y、r8i实例区别及选择参考
随着阿里云2024年金秋云创季的开始,目前在阿里云的活动中,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y和内存型r8i这几个实例规格,相比于活动内的经济型e和通用算力型u1等实例规格来说,这些实例规格等性能更强,虽然这几个实例规格的云服务器通常处理器与内存的配比为都是1:8,但是他们在处理器、存储、网络、安全等方面等性能并不是一样的,所以他们的适用场景也有着不同。本文为大家介绍内存型r7、r8a、r8y、r8i实例的性能、适用场景的区别以及选择参考。
|
Web App开发 监控 网络协议
网络分析与监控:阿里云拨测方案解密
阿里云网络拨测业务提供了全球、多种协议、多种网络态势的用户网络性能和用户体验监控场景的全面可观测方案。该文章从拨测场景下,介绍了用户如何快速的构建一套全球用户视角的服务可用性大盘,为客户的业务保驾护航。
1498 163
|
机器学习/深度学习 存储 监控
Elasticsearch 在日志分析中的应用
【9月更文第2天】随着数字化转型的推进,日志数据的重要性日益凸显。日志不仅记录了系统的运行状态,还提供了宝贵的洞察,帮助企业改进产品质量、优化用户体验以及加强安全防护。Elasticsearch 作为一个分布式搜索和分析引擎,因其出色的性能和灵活性,成为了日志分析领域的首选工具之一。本文将探讨如何使用 Elasticsearch 作为日志分析平台的核心组件,并详细介绍 ELK(Elasticsearch, Logstash, Kibana)栈的搭建和配置流程。
927 4
|
机器学习/深度学习 人工智能 大数据
基于联邦学习的数据隐私保护机制在智能模型训练中的应用
【8月更文第15天】随着大数据和人工智能的发展,数据隐私保护成为了亟待解决的问题。传统的集中式机器学习方法需要将数据收集到一个中心服务器进行处理,这不仅增加了数据泄露的风险,还可能触犯相关的法律法规。联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习框架,允许终端设备直接在本地数据上训练模型,并仅将更新后的模型参数发送给中心服务器汇总,从而在不暴露原始数据的情况下实现模型训练。
774 0
|
消息中间件 负载均衡 Java
如何设计一个分布式配置中心?
这篇文章介绍了分布式配置中心的概念、实现原理及其在实际应用中的重要性。首先通过一个面试场景引出配置中心的设计问题,接着详细解释了为什么需要分布式配置中心,尤其是在分布式系统中统一管理配置文件的必要性。文章重点分析了Apollo这一开源配置管理中心的工作原理,包括其基础模型、架构模块以及配置发布后实时生效的设计。此外,还介绍了客户端与服务端之间的交互机制,如长轮询(Http Long Polling)和定时拉取配置的fallback机制。最后,结合实际工作经验,分享了配置中心在解决多台服务器配置同步问题上的优势,帮助读者更好地理解其应用场景和价值。
634 18
|
存储 机器学习/深度学习 人工智能
迎接AI挑战:构建新一代AI网络基础设施
随着人工智能(AI)技术的飞速发展,AI模型的复杂度和数据规模急剧增加,对基础设施的需求提出了前所未有的挑战。传统的互联网基础设施已难以满足AI技术对高性能计算、大规模数据处理和低延迟网络的需求,从而催生了新一代AI基础设施的诞生。本文旨在深入探讨新一代AI基础设施的特点、优势,并介绍其在混合云环境下的应用方案。
|
负载均衡 Java Spring
Spring cloud gateway 如何在路由时进行负载均衡
Spring cloud gateway 如何在路由时进行负载均衡
2328 15