【推荐系统】推荐系统数据流的经典技术架构+微软、阿里、微软等10大深度学习CTR模型最全演化图谱

简介: 流处理平台的准实时特征处理:所谓流处理平台,是将日志以流的形式进行mini batch处理的准实时计算平台,流处理平台计算出的特征可以立马存入特征数据库供推荐系统模型使用,虽然无法实时的根据用户行为改变用户结果,但分钟级别的延迟基本可以保证用户的推荐结果准实时地受到之前行为的影响。

一、推荐、广告、搜索系统的区别?


1.1 根本问题区别



  • 广告:广告算法的目标就是为了直接增加公司的收入
  • 搜索:围绕搜索词的信息高效获取问题的回应
  • 推荐:增加用户的参与度,提高用户粘性和留存率


1.2 优化目标的区别


  • 广告:预估CTR和CVR,反向推导流量的价值
  • 搜索:看重能够把正确答案召回回来
  • 推荐:推荐算法目标不尽相同,视频类更倾向于视频播放市场,新闻类预测CTR点击率,电商类预估客单价等


1.3 模型本身的差异


经典的Attention推荐模型

融合序列结构的DSIN

Google Play的搜索双塔模型


二、推荐系统技术架构


2.1 数据部分



主流大数据架构


  • 批处理架构
  • 流处理架构
  • Lambda架构
  • Kappa架构
  • Unified架构


2.2 模型部分



召回层:


  • Embedding
  • 局部敏感哈希
  • 热门物品召回
  • 社交关系召回
  • 新鲜物品召回


排序层:


  • 协同过滤类模型
  • LR、FM、MLR
  • 组合类模型
  • 深度学习模型


补充策略与算法:


  • 多样性
  • 实时性
  • 流行度
  • 新鲜度


2.3 推荐系统数据流的技术架构图



  • 客户端实时特征:经常利用客户端收集时间、地点、推荐场景等上下文特征,然后让这些特征随http请求一起到达服务器端,参与模型预测。
  • 流处理平台的准实时特征处理:所谓流处理平台,是将日志以流的形式进行mini batch处理的准实时计算平台,流处理平台计算出的特征可以立马存入特征数据库供推荐系统模型使用,虽然无法实时的根据用户行为改变用户结果,但分钟级别的延迟基本可以保证用户的推荐结果准实时地受到之前行为的影响。
  • 分布式批处理平台的全量特征处理:随着数据最终到达以HDFS为主的分布式存储系统。Spark等分布式计算平台终于能够进行全量特征的计算和抽取。在这个阶段着重进行的还有多个数据源的数据join和以及延迟信号的合并。


三、深度学习推荐模型的演化趋势


3.1 前深度学习时代CTR预估模型的演化之路



3.2 谷歌、阿里、微软等10大深度学习CTR模型最全演化图谱【推荐、广告、搜索领域】



3.3 CTR基本模型结构



3.4 DIN网络



3.5 DIEN网络



3.6 如何根据用户历史行为数据计算CTR?



  • 方式一:考虑所有行为记录的影响,利用average pooling将embedding vector平均一下形成这个用户的user vector
  • 方式二:使用time decay,让最近的行为产生的影响大一些,在做average pooling的时候按时间调整一下权重
  • 方式三:引入attention机制,对不同的行为兴趣增加不同的权重
目录
相关文章
|
11月前
|
机器学习/深度学习 算法 定位技术
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)
本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。
1260 27
|
10月前
|
机器学习/深度学习 数据可视化 算法
深度学习模型结构复杂、参数众多,如何更直观地深入理解你的模型?
深度学习模型虽应用广泛,但其“黑箱”特性导致可解释性不足,尤其在金融、医疗等敏感领域,模型决策逻辑的透明性至关重要。本文聚焦深度学习可解释性中的可视化分析,介绍模型结构、特征、参数及输入激活的可视化方法,帮助理解模型行为、提升透明度,并推动其在关键领域的安全应用。
872 0
|
9月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
800 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
8月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
机器学习/深度学习 数据采集 自然语言处理
深度学习实践技巧:提升模型性能的详尽指南
深度学习模型在图像分类、自然语言处理、时间序列分析等多个领域都表现出了卓越的性能,但在实际应用中,为了使模型达到最佳效果,常规的标准流程往往不足。本文提供了多种深度学习实践技巧,包括数据预处理、模型设计优化、训练策略和评价与调参等方面的详细操作和代码示例,希望能够为应用实战提供有效的指导和支持。
|
11月前
|
机器学习/深度学习 人工智能 PyTorch
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
本文以 MNIST 手写数字识别为切入点,介绍了深度学习的基本原理与实现流程,帮助读者建立起对神经网络建模过程的系统性理解。
895 15
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 基础知识从 0.3 到 0.4——如何选对深度学习模型?
本系列文章从机器学习基础出发,逐步深入至深度学习与Transformer模型,探讨AI关键技术原理及应用。内容涵盖模型架构解析、典型模型对比、预训练与微调策略,并结合Hugging Face平台进行实战演示,适合初学者与开发者系统学习AI核心知识。
769 15
|
9月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
551 0
|
12月前
|
机器学习/深度学习 存储 PyTorch
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。
521 2
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习模型、算法与应用的全方位解析
深度学习,作为人工智能(AI)的一个重要分支,已经在多个领域产生了革命性的影响。从图像识别到自然语言处理,从语音识别到自动驾驶,深度学习无处不在。本篇博客将深入探讨深度学习的模型、算法及其在各个领域的应用。
1926 3

热门文章

最新文章