推荐系统网络序言

简介: 推荐系统的基本架构包括用户画像、召回、粗排、精排与混排五个模块。用户画像构建兴趣,召回筛选候选集,粗排和精排排序商品,混排处理多内容展示。精排阶段是学术界和工业界的重点,目标是筛选用户可能最喜欢的item列表,主要采用CTR预估模型进行排序。CTR模型从LR进化到embedding+MLP范式,探索高效高阶交叉信息。推荐系统是一个系统工程,需考虑在线与离线一致性,特征和模型的在离线不一致会带来问题。CTR模型输入为大量成对(features、label)数据,特征包含用户本身、行为、上下文和物品特征,离散型特征可采用one-hot或embedding方式处理,连续型特征可分段离散化。

在介绍推荐系统网络之前,先了解一下推荐系统的基本架构包括用户画像、召回、粗排、精排与混排五个模块。其中用户画像主要是构建用户兴趣,通过用户的行为日志信息识别出用户的兴趣(包括长期与短期兴趣)、行为统计信息、用户DPM信息、用户体验反馈等;召回主要是指通过多种算法来从数据库中筛选出候选集,主要用来降低后续排序环节中候选集的规模,将百万级的数据集缩小至千级别的规模,主要包括ICF、UCF等CF类召回算法、规则类召回算法(最新或最热)及基于语义向量(Embedding召回);粗排和精排是指使用评分模型对候选物品进行排序来匹配出用户喜好的商品,粗排主要是给精排服务的,大多数情况下需要做特征对齐来保证目标一致性;混排则是处理多种内容的混合展示,例如在多种信息流内容中包含咨询、视频、小视频、图文等内容,需要将内容以形式化的方式展示给用户,因此会涉及到一些策略,比如冷启用户曝光、强制曝光策略等。

在推荐系统的基本架构中,当前学术界和工业界的主要精力还是在精排阶段,该阶段的目标是筛选出用户可能最喜欢的item列表,采用较多的是point-wise进行排序,其本质上是一个CTR预估模型,因此精排模型的历史也就是CTR模型的演进历史。

关于CTR模型的本质是希望从样本中学习到有用的信息,其发展历史也是伴随着机器学习->深度学习在不断变化,从统计学习的机器学习时代LR模型进化到embedding+MLP范式,主要是探索如何能够通过模型学习到用户更加高效的高阶交叉信息。

下述链接有详细说明: https://zhuanlan.zhihu.com/p/104307718

此外,对于推荐系统来说实际上是一个系统工程,而不仅仅只是一个模型,离线的模型训练只是推荐系统的一个环节,因此需要考虑在线与离线的一致性。在离线不一致主要有两部分:1.特征的在离线不一致;2.模型的在离线不一致。以特征为例:在离线没有采用统一的框架,比如在线用一套C++抽取框架,离线用一套java抽取框架,还是不同的程序员进行实现,那么必然产生在离线不一致的情况。

上述对整个推荐系统的流程进行了介绍,接下来将会对CTR模型进行详细介绍。CTR全称叫做Click-Through-Rate,点击率预估,指的是精排层的排序,因此其候选集一般是千级数量。对于CTR模型而言,模型训练的输入一般是大量成对的(features、label)数据。其特征一般包含以下模块,第一用户本身特征(年龄、性别等);第二用户行为特征(历史购买的商品、点击过的物品);第三上下文特征(登录设备,时间等);第四待排序物品特征(物品ID,被点击次数、物品的点击率等);上述特征包含离散型特征(物品ID)同时也包含连续型特征(点击率)。

对于CTR模型而言,其只能够处理其对应格式的输入数据,因此需要对特征进行编码,也就是将特征信息转化为计算机能够识别的语言,离散型特征可以采用one-hot或embedding的方式进行处理,连续型特征可以不处理,也可以分段离散化再按照离散数据类型进行处理。label在ctr模块指的是模型的预测目标,CTR场景下预测的点击率即为用户是否会对该物品产生点击行为,点击则label为1,不点击则为0;因此,整个CTR模型的训练输入是特征向量+标签,而推理时模型输入只有特征向量,输出是一个0~1之间的数字,代表预估的CTR值用做排序,因此CTR预估本质上是一个二分类问题。

相关文章
|
机器学习/深度学习 数据采集 搜索推荐
推荐系统!基于tensorflow搭建混合神经网络精准推荐! ⛵
本文从常见的推荐系统方法(基于内容、协同过滤等近邻算法、基于知识等)讲起,一直覆盖到前沿的新式推荐系统,不仅详细讲解原理,还手把手教大家如何用代码实现。
5350 5
推荐系统!基于tensorflow搭建混合神经网络精准推荐! ⛵
|
机器学习/深度学习 搜索推荐 TensorFlow
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
279 0
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
|
搜索推荐 TensorFlow 数据处理
【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构
【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构
191 1
【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构
|
搜索推荐 TensorFlow 数据处理
【推荐系统】TensorFlow复现论文PNN网络结构
【推荐系统】TensorFlow复现论文PNN网络结构
202 0
【推荐系统】TensorFlow复现论文PNN网络结构
|
搜索推荐 TensorFlow 算法框架/工具
【推荐系统】TensorFlow复现论文NeuralCF网络结构
【推荐系统】TensorFlow复现论文NeuralCF网络结构
238 0
【推荐系统】TensorFlow复现论文NeuralCF网络结构
|
机器学习/深度学习 并行计算 搜索推荐
推荐系统总结(交替最小二乘法、LightFM、神经网络矩阵分解和神经协同过滤)
在社交媒体网络上,有大量的半结构化数据。该任务的数据集是从在线照片共享社交媒体网络 Flickr 收集的。Flickr 允许用户分享照片并相互交流(朋友)。目标是向访问此社交媒体平台的大量数据的每个用户推荐对象(图片)列表。训练数据集包含一组用于构建推荐系统的用户和项目(照片)之间的交互,包含评分基本事实的验证数据用于决定最终模型。除测试数据外,其余数据集不用于分析。
692 0
|
机器学习/深度学习 搜索推荐 算法
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
美团基础研发机器学习平台训练引擎团队,联合到家搜推技术部算法效能团队、NVIDIA DevTech团队,成立了联合项目组。目前在美团外卖推荐场景中进行了部署,多代模型全面对齐算法的离线效果,对比之前,优化后的CPU任务,性价比提升了2~4倍。
676 0
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
|
10月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
420 1
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
|
12月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
12月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)

热门文章

最新文章

下一篇
oss创建bucket