推荐系统召回算法及架构说明

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里巴巴技术专家傲海为大家带来推荐系统召回算法及架构说明的介绍。内容包括召回模块在推荐系统中的位置,召回算法的介绍,什么是协同过滤,以及向量召回架构的说明。

课程地址:https://developer.aliyun.com/course/2052

一、召回模块在推荐系统中的位置

在如何构建企业级推荐系统系列课程的第一课中,我们介绍了整个推荐系统的架构应该是什么样的,大体有哪些模块,在云上的产品的每个模块需要用什么样的一个应用。在这一节课,我们会重点针对推荐系统中的召回算法做一个具体的说明,以及这个架构是怎么搭建的。先来回顾一下召回模块在整个推荐系统中的一个位置。召回模块主要做的一件事就是初筛。用户A进到平台中,从潜在的超大规模的item中筛选A可能喜欢的较小比例的item。比如说平台上有10万个item,用户进来之后筛选出500个他可能会喜欢的。接下来通过排序模块根据他的喜好程度对item进行排序。
image.png

二、推荐场景-召回算法介绍

今天我们就介绍一下在这个召回模块究竟会用到哪些算法。我把目前比较流行的4个算法放到这里。右侧的是协同过滤算法,左侧的可以叫做向量召回相关的算法。协同过滤算法类似于基于统计的算法,它会找出兴趣相同的一些人,或者说一些可以被同时购买的商品。比如说啤酒和尿布的故事,我们发现在超市里啤酒和尿布经常被一起购买,这是基于大量的数据统计得到的一个结果。向量召回更偏机器学习的一些深层的模型。比如说ALS是一个经典的矩阵分解方法,可以基于行为数据表,产出user embedding表和item embedding表。这是向量召回的一个基本方法。其实FM也是类似的一个逻辑,通过内积方式增强特征表现力。这里面我要单独介绍一下 GraphSage算法。它其实是一种图神经网络的召回算法,这种算法在整个的互联网领域应用的还不是特别多。但是在一些比较大的互联网公司,比如说淘宝的推荐场景会应用得比较多。GraphSage是基于深度学习框架构建的图算法。可以基于用户和商品特征及行为产出user embedding和item embedding。GraphSage算法也经常被用于电商的召回场景。
image.png

三、什么是协同过滤

协同过滤可能是比较好理解的一个算法,我这里会用一个篇幅给大家介绍一下。比如说我们有用户A、B、C,他们的偏好如下图所示。你会发现A和C有一些相似的口味。A和C都喜欢Rice、Milk。除此之外,A还喜欢Lamb。就是说A和C有相似的口味,并且A还喜欢某个C没有尝试过的东西。我们就假设C也喜欢它,可以把它作为C的一个召回结果。这就是一个基于数据统计的标准的协同过滤的方式。这张图可以帮大家很好地去理解协同过滤算法的原理。
image.png

四、向量召回架构说明

接下来再介绍一下刚才的三种向量召回的算法。它的一个输入的数据大体是这样的,你有一些用户的ID,然后有一些物品的ID,然后有一些行为的数据。如下图所示,这是一个用户行为的数据表,进来之后你通过向量召回算法,最终拿到的是两个向量表。这些向量表在实际的生产中是一个K、V形式的。就是一个用户ID对应一个向量,可以在Redis里去暂存一下。实际的使用过程中需要把这些东西全存到Faiss的服务器里。Faiss是Facebook的AI团队开源的专门针对向量检索的一个引擎。它的一个好处就是非常快,可以提供很多的向量检索的模式,甚至可以在一毫秒之内返回一个几百万级别的向量检索,它的性能非常好,常用到推荐召回的领域里。具体召回的时候,比如说我们想给一个用户推荐一个物品,我们拿着用户的ID和它的向量进入到Faiss引擎里去查哪些物料向量和用户向量的欧式距离最近。比如说,把Top10个拿出来,作为这名用户的召回结果。这是整个的方案,会用到Redis,也会用到Faiss这样的一个引擎。这就是整个的向量召回的架构。
image.png

五、参考资料

最后,介绍一下我们给大家准备的一些资料。这第一个link它对应的是PAI团队结合自身过去几年在推荐领域的一些探索,总结了140页的推荐业务的动手实践文档。没有机器学习背景的人基于我们这些文档,也可以在一周之内搭建一套企业级的推荐系统,大家如果感兴趣可以去用一下。另外这一个是PAI的产品地址。
image.png

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
152 1
|
1月前
|
机器学习/深度学习 算法 搜索推荐
django调用矩阵分解推荐算法模型做推荐系统
django调用矩阵分解推荐算法模型做推荐系统
26 4
|
2月前
|
前端开发 搜索推荐 算法
中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发
中草药管理与推荐系统。本系统使用Python作为主要开发语言,前端使用HTML,CSS,BootStrap等技术和框架搭建前端界面,后端使用Django框架处理应用请求,使用Ajax等技术实现前后端的数据通信。实现了一个综合性的中草药管理与推荐平台。具体功能如下: - 系统分为普通用户和管理员两个角色 - 普通用户可以登录,注册、查看物品信息、收藏物品、发布评论、编辑个人信息、柱状图饼状图可视化物品信息、并依据用户注册时选择的标签进行推荐 和 根据用户对物品的评分 使用协同过滤推荐算法进行推荐 - 管理员可以在后台对用户和物品信息进行管理编辑
85 12
中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发
|
3月前
|
搜索推荐 前端开发 算法
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
本文介绍了一个基于用户画像和协同过滤算法的音乐推荐系统,使用Django框架、Bootstrap前端和MySQL数据库构建,旨在为用户提供个性化的音乐推荐服务,提高推荐准确性和用户满意度。
251 7
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
|
3月前
|
机器学习/深度学习 算法 机器人
【博士每天一篇文献-算法】改进的PNN架构Lifelong learning with dynamically expandable networks
本文介绍了一种名为Dynamically Expandable Network(DEN)的深度神经网络架构,它能够在学习新任务的同时保持对旧任务的记忆,并通过动态扩展网络容量和选择性重训练机制,有效防止语义漂移,实现终身学习。
58 9
|
3月前
|
机器学习/深度学习 存储 人工智能
【博士每天一篇文献-算法】改进的PNN架构Progressive learning A deep learning framework for continual learning
本文提出了一种名为“Progressive learning”的深度学习框架,通过结合课程选择、渐进式模型容量增长和剪枝机制来解决持续学习问题,有效避免了灾难性遗忘并提高了学习效率。
60 4
|
3月前
|
消息中间件 搜索推荐 UED
Elasticsearch 作为推荐系统后端的技术架构设计
【8月更文第28天】在现代互联网应用中,推荐系统已经成为提高用户体验和增加用户粘性的重要手段之一。Elasticsearch 作为一个高性能的搜索和分析引擎,不仅能够提供快速的全文检索能力,还可以通过其强大的数据处理和聚合功能来支持推荐系统的实现。本文将探讨如何利用 Elasticsearch 构建一个高效且可扩展的推荐系统后端架构,并提供一些具体的代码示例。
253 0
|
4月前
|
存储 算法 Java
高并发架构设计三大利器:缓存、限流和降级问题之滑动日志算法问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之滑动日志算法问题如何解决
|
4月前
|
算法 Java 调度
高并发架构设计三大利器:缓存、限流和降级问题之使用Java代码实现令牌桶算法问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之使用Java代码实现令牌桶算法问题如何解决
|
4月前
|
缓存 算法 Java
高并发架构设计三大利器:缓存、限流和降级问题之使用代码实现漏桶算法问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之使用代码实现漏桶算法问题如何解决

热门文章

最新文章