闲鱼推荐,让智能计算从云走向端

简介: 我想更懂你!


闲鱼推荐,知道你的喜欢。

作者:
储睿(刘思佳)、锦逸(陈祎平)、明栋(欧明栋)、资旭(杨子旭)。

关键词:
智能推荐、特征工程、特征处理。

术语解释:

  • 机器学习(Machine Learning):是关于在计算机上从数据中产生“模型”(model)的算法;
  • 数据集(Data Set):一组记录的集合;
  • 模型(Model):泛指从数据中学得的结果;
  • 特征(Feature):是从原始数据中抽取出来的对结果预测有用的信息,可以是文本或者数据;
  • 特征工程(Feature Engineering):是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块;
  • 端计算/边缘计算:与传统的中心化思维不同,它的计算节点更靠近终端,使服务响应高于传统中心化的云计算。

1. 背景

近些年,随着云计算和大数据的快速发展,以机器学习为基础的智能推荐也得到了迅猛发展。利用云计算,不但可以每日更新模型,双11更是小时级更新模型,以实现更准确的推荐。为了更好的优化推荐系统,丰富实时特征,通常会采集大量的行为数据上报到云端。随着闲鱼DAU(日活跃用户数量)的不断增长,这种云端中心化计算模式的问题也暴露了出来。

中心化模式不但要消耗大量的服务器资源,还要面对海量数据处理所带来的延迟问题(分钟级延迟,不可原谅)。

2. 推荐系统的实时性

为什么说,延迟问题对推荐系统是致命的,不可原谅的?
推荐系统的实时性越高,更新速度越快,推荐越准。现在的用户越来越没有耐心,如果不快速抓住用户的心,用户很容易流失。

推荐系统的实时性是指:
(1)“模型”的实时性;
(2)“特征”的实时性

2.1 “模型”的实时性

“模型”的实时性:不断更新模型,可以让模型找到最新的流行趋势,以及最新的相关性信息。

比如,大家都去关注某个明星,模型会通过大多数人的行为数据,发现该明星成为了流行趋势,以及大家所关注的内容。

暂时不对模型的实时性进行详细分析,现在的模型训练还强依赖云计算。
当然,很多人也在尝试,端计算和云计算的联合训练。相信不久的将来,应该会有成果落地。

2.2 “特征”的实时性

“特征”的实时性:以用户最近的行为数据作为输入特征,模型就会发现用户最近的行为习惯,并进行相关的预测和推荐。

比如,你浏览了一部手机,系统就会给你推送不同品牌、不同价位的手机;如果你连续浏览华为手机,系统就会给你推送不同价位的华为手机。你连续行为数据越丰富,推荐越准确。

PS:我们说的,中心化计算模式数据处理所带来的延迟问题,就是影响了特征的实时性。

3. 推荐系统的实时特征

为什么,特征更新只是存在分钟级延迟就不可原谅了?而模型只需要每日更新?
模型的实时性代表流行趋势,通常情况流行趋势不会实时变化,只需要满足活动的趋势变化就可以了。
而特征的实时性代表个体用户的实时行为,如果无法对用户的实时行为做出响应,用户就可能流失。

特征的实时性很重要,其实并不是所有特征都有实时性要求,比如:性别、年龄等。对实时性有要求的特征,我们称之为实时特征。

闲鱼推荐实时特征包括:
(1)浏览行为特征,如曝光、曝光时长、滚动速度等;
(2)详情页行为特征,如进入详情页、询单、收藏、评论、点赞、点击大图等;
(3)购买行为特征,下单后不再进行相关推荐。

浏览行为特征

在推荐场景,连用户都不知道自己想要什么的情况下。我们希望通过细化用户浏览行为特征,来判读他所关注的商品。

引入端计算后,我们可以采集更多维度的用户行为数据,使用户模型更准确。

PS:长时间以来,闲鱼推荐的浏览行为特征几乎是缺失的。算法一直在用伪曝光(下发即曝光)数据做推荐,因为云端根本没有足够多的服务器对曝光数据进行特征处理。曝光数据量实在是太大了,每个用户随意的一次滚动就会产生多条曝光数据。

4. 实时聚类特征 & 实时意图特征

为了解决云端处理延迟问题,我们对实时特征进行了抽象,沉淀了两种端上的实时特征处理方案:
(1)实时聚类特征;
(2)实时意图特征。

4.1 实时聚类特征

我们利用端计算,对行为数据进行实时聚类统计。
我们现在是按60秒的时间插槽聚类统计(时间插槽太大效果不好,太小数据上报太频繁,QPS太高);
我们统计60秒内,某个类目(手机、女裙、美妆等)的曝光次数、曝光时长、点击PV等数据;
如果是强特征事件(点击事件)会实时触发特征上报,如果是弱特征事件(曝光事件)会累计到10个再上报。

全量发布两周后数据统计:


4.2 实时意图特征


该方案,是利用端智能模型,对行为数据进行实时意图判读,并上报到云端。
PS:该方案,我们还没有全量,还在尝试。

5. 总结

本文,利用端计算(边缘计算)将特征工程前置,实现了去中心化,解决了大量原始数据在云端堆积无法实时处理的问题,提高了推荐系统的特征实时性。
端计算的引入,不但提高了推荐系统的实时性,同时完善了用户行为数据,让之前很多不可能的事情变成了可能,大大提升了推荐效率。
实践证明,端云协同将成为未来的趋势。

6. 延展

现在,我们已经将特征数据实时上报到了云端,但是需要到下一次接口请求才会出现相关商品的推荐。这里存在响应的实时性问题。
最近,我们正在尝试对未曝光商品进行数据重刷(还在线上AB测试,效果挺好的,应该马上就会全量了)。
方案概述:由端模型判断是否进行数据重刷,然后客户端发起接口请求(请求新推荐的商品数据),再替换未曝光商品。
PS:本文暂不对重刷方案进行详细介绍,后面会有专题文章。

相关文章
|
弹性计算 运维 Kubernetes
serverless 49 | 案例: 金融服务-视野数科
serverless 49 | 案例: 金融服务-视野数科
156 0
serverless 49 | 案例: 金融服务-视野数科
|
存储 分布式计算 DataWorks
某智能终端厂商流量商业化项目的云原生大数据平台实践
随着流量获取,移动互联网业务成为集团三大战略之一,启动流量商业化项目,包括类似阿里妈妈的流量联盟、帮助广告主更好买量的数字化营销平台以及用户体系等,其中广告检索和广告大数据平台成为支撑整个流量商业化项目的技术基础。
3329 0
|
消息中间件 边缘计算 运维
一个字稳!云原生产品家族支撑冬奥会九大业务场景,打造云上奥运新体验
在即将到来的冬残奥会,我们也将全力以赴,稳稳的!
一个字稳!云原生产品家族支撑冬奥会九大业务场景,打造云上奥运新体验
|
Kubernetes Cloud Native 持续交付
KubeMeet 直播 | 现场直击大规模集群、混合环境下的云原生应用交付难题
2022 年 1 月 15 日 由云原生基金会与阿里云同城会联合主办的 KubeMeet 「云原生应用交付与管理」专场开发者沙龙将在成都举办,同时,线上直播预约已开启,快参与到本次 KubeMeet 中吧!
KubeMeet 直播 | 现场直击大规模集群、混合环境下的云原生应用交付难题
|
运维 资源调度 监控
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
近几年云计算的发展如火箭般迅猛,异构变革日新月异,这是基础设施层明确的发展趋势。值得关注的是,随着基础设施的复杂度越来越高,也为整个基础设施的统一资源调度带来了极大挑战。在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?12月15日,在以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会上,蚂蚁集团数字科技事业部产品总监马振雄分享了在分布式云异构基础设施之上,蚂蚁集团在构建分布式云PaaS平台SOFAStack背后的实践和思考。
332 0
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
|
运维 资源调度 监控
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验
在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验
|
机器学习/深度学习 人工智能 编解码
云智一体全场景视频技术,百度智能视频云怎么玩转视频业务全流程?
在云计算和AI技术的帮助下,视频工作正在从「刀耕火种」走向「精耕细作」。
259 0
云智一体全场景视频技术,百度智能视频云怎么玩转视频业务全流程?
|
云安全 弹性计算 人工智能
阿里云祝顺民:云网络心智大图解读
2021 年10 月20 日,在2021 云栖大会·云计算产业升级峰会上,阿里云“因云而生”云原生心智大图正式发布,包含弹性计算、云网络、基础产品、基础设施、操作系统、云安全、开放平台等7个 IaaS 领域,以及云原生应用平台、数据库、大数据&AI、智能loT、云效平台、企业服务云、视频云、钉钉等8个 PaaS & SaaS 领域的阿里云核心技术逐一亮相,具体产品解读内容将在「凌云时刻」进行系列发布。本文根据阿里巴巴集团研究员、阿里云云网络负责人祝顺民(江鹤)的现场分享整理而成。
阿里云祝顺民:云网络心智大图解读
|
编解码 弹性计算 网络虚拟化
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
本文主要介绍阿里云网络产品从无到规模应用的 10 年过程中,云网络技术平台洛神的发展历程。
5017 2
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
|
运维 安全 Cloud Native
阿里云混合云重磅发布 全栈建云智能管云极致用云
6月9日, 2020阿里云峰会在云端召开,阿里云混合云产品总监谢宁出席峰会并发布阿里云混合云战略:全栈建云、智能管云、极致用云。阿里云混合云是国内首个大规模成熟商用的原生混合云,提供稳定、安全、弹性、开放的产品和解决方案,致力于成为政企客户实现数字化转型的核心基础设施。
891 0
阿里云混合云重磅发布 全栈建云智能管云极致用云