推荐系统之业务架构总览

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介:
前言

前一篇介绍了推荐系统冷启动的问题既然已经cold start了这一节就大致讲下新闻推荐系统的业务架构也就是新闻推荐系统需要有哪些模块组成每一个模块的职责是什么。


首先看下整个新闻推荐系统大图今天这篇文章就是为大家讲解这张图的具体含义和相互关系今天主要是介绍大概最为开篇接下来会有一系列文章介绍图中每一部分的策略。

画图不容易版权相关转载请注明出处~

屏幕快照 2018-12-17 下午4.52.23.png

图中红色相关的形状是两个输入分别是用户和内容分别代表两个路径表示的是当推荐系统进入一个用户或一个内容的行为轨迹。本文把整个推荐系统按照业务路径分成3个部分分别是用户数据轨迹、内容数据轨迹以及推荐列表生成接下来分别介绍下每个环节的作用。

屏幕快照 2018-12-17 下午4.52.23的副本.png



01用户轨迹


用户轨迹方面每次进来一名用户首先要判断这名用户是否是新用户一旦发现是新用户将启动冷启动策略这个策略在之前的文章已经介绍过。如果用户不涉及到冷启动问题则进入用户画像的构建流程。

屏幕快照 2018-12-17 下午7.20.23.png


用户画像的构建分为两种分别是用户注册标签特征用户注册的时候获取的特征还有一种是平台行为特征用户过去在平台的一些操作日志


用户注册标签特征

这部分特征是原始生成的不需要每次用户登录都重新计算并修改。

  • 账号注册信息注册的时候可以让用户填写年龄、性别等内容、手机号等内容同时也可以通过LBS信息了解用户的活动区域。针对这些信息可以给用户兴趣做一个初步判断比如年轻的都市女性往往有较高的消费能力在推荐策略上可以推荐高规格的一些内容

  • 身份证信息现在很多系统都需要实名认证身份证号其实可以带来很多有用的信息比如前两位是省级代码34位是市级代码7-14位是生日代码第17位是性别代码奇数代表男性、偶数代表女性

  • 社交账号登录如果系统可以设计成支持淘宝、微信等账号登录也可以通过这些系统拿到部分用户画像信息

  • 预采集现在很多APP当用户初次进入都有一个兴趣爱好勾选的按钮这个就是为了解决冷启动的一个手段在推荐之前先通过用户标记获取用户信息

  • 数据交换注册的时候其实可以拿到用户的手机号码现在有很多卖数据的公司都提供用户画像数据的交易只要提供手机号就能获取特别全的用户数据这个貌似是个黑产业

平台行为特征

需要每次用户登录都记录的特征

  • 用户历史的浏览记录比如用户关注了哪些类目的新闻比如体育新闻或者娱乐新闻

  • 用户在平台上的一些反馈评论、点赞、收藏都信息

  • 用户的LBS变化信息比如用户经常往返于北京和杭州这些信息需要实时抓取


获取了以上用户的特征信息做汇总就可以入“用户总库”这个用户行为数据库将对接下来的模型训练起到重要作用。


02内容轨迹


内容轨迹指的是每次平台新增新闻内容时的操作。新闻内容不同于其它推荐场景对于内容的安全审查是非常重要的。如果出现不健康内容对于平台会有很大的伤害具体策略日后详细讲解。执行完内容审查要开始对内容进行打标标签分两种分别是内容自身特征以及平台行为特征。

注新闻推荐的更多是倾向于文章标题推荐而安全审查更多地针对文章内容


内容自身特征

内容自身的属性不需要频繁更新

  • 内容所属类别可以分多个级别标记比如可以标为体育体育下一级还可以标为篮球这个标注是依靠算法实现。比如关键词提取或者主题模型

  • 内容主体识别标记出文章包含哪些主体比如下面这句话“费德勒是个出色的网球运动员”。可以找出“网球”、“运动员”、“费德勒”这3个主体

  • 文章的发布时间、发布者等信息以及是否有地理相关性的特征


平台行为特征

平台行为特征指的是新闻内容在平台上历史被点击、点赞、收藏、转发等信息。


03推荐候选集生成轨迹


当收集了内容以及用户特征后就组成了所有平台上的内容总库以及用户总库可以将这两个组件合并构建出模型训练集。训练集汇总了所有平台上的某某文章被某某阅读点击过的全部行为日志这样就可以通过算法训练一个模型用来新闻推荐。

ä»æ¥å¤´æ¡æ¨èç®æ³åçå¨æ详解 ä»æ¥å¤´æ¡ æ°æ®åæ 产åç»ç 产å 好æå享 第4å¼ 

算法有很多形式可以选择这个在未来的章节详细介绍


有了内容推荐模型后要进行的操作就比较简单了为用户预测出他感兴趣的模型。有的同学会说既然有了模型那么对每个用户在全网所有文章的兴趣点预测一次取topN不就可以了通常推荐系统不会这么做因为每个用户对每个文章都算一下兴趣度计算量非常大而且很难在用户进入新闻终端时快速拿到预测结果。

ä»æ¥å¤´æ¡æ¨èç®æ³åçå¨æ详解 ä»æ¥å¤´æ¡ æ°æ®åæ 产åç»ç 产å 好æå享 第7å¼ 

通常的做法是先通过召回策略筛选出部分推荐候选集再通过内容推荐模型对候选集进行预测并排序这样就可以大大减少计算量。

召回策略候选集可以通过用户画像标签从内容总库中快速查询获得。

ä»æ¥å¤´æ¡æ¨èç®æ³åçå¨æ详解 ä»æ¥å¤´æ¡ æ°æ®åæ 产åç»ç 产å 好æå享 第8å¼ 


通过内容推荐模型对召回候选集数据进行预测拿到用户感兴趣的文章排序列表就可以推送给用户。以上是本文的介绍略过了中间的很多策略待后续文章补充。


参考文献http://lusongsong.com/info/post/9829.html

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
4月前
|
SQL 分布式计算 搜索推荐
【推荐系统】推荐业务架构介绍(一)
【推荐系统】推荐业务架构介绍(一)
94 0
|
6月前
|
存储 监控 搜索推荐
【业务架构】业务驱动的推荐系统相关技术总结
【业务架构】业务驱动的推荐系统相关技术总结
55 0
|
10月前
|
运维 Kubernetes Cloud Native
【华为云原生入门级认证】第 1 章 云原生架构总览
【华为云原生入门级认证】第 1 章 云原生架构总览
309 0
|
移动开发 芯片 内存技术
经典蓝牙架构分层及协议总览
经典蓝牙架构分层及协议总览
1182 0
|
敏捷开发 架构师 项目管理
架构师才能看懂的大型网站架构面临的挑战:业务架构的基本思路
业务架构的基本思路 大型网站系统有很多功能,一次性明确所有的功能需求并设计出一个庞大的业务架构是一件费力不讨好的事情。因为在项目前期,难免会忽视一些琐碎功能,而随着开发的进行,也会有很多新的想法产生,基本上不会存在完全按照最初的业务架构设计完成的软件产品。因此,业务架构不仅要做到“规整功能模块,厘清产品业务逻辑”,更重要的是如何做到“有规划性地应对项目过程中的需求变更”。
|
运维 架构师 前端开发
架构地图-业务架构1
架构地图-业务架构1
|
运维 Kubernetes Cloud Native
云原生架构总览,发展定义架构及趋势
云原生架构总览,发展定义架构及趋势
303 0
云原生架构总览,发展定义架构及趋势
|
人工智能 运维 Kubernetes
我把传统业务架构升级到业务中台架构的心得
此为实战经验输出章节,重点在于自我的经验总结和实践经验记录,自己在整个过程角色是架构师和研发部门负责人角色,即设计和执行合一
|
机器学习/深度学习 人工智能 算法
推荐系统召回算法及架构说明|学习笔记
快速学习推荐系统召回算法及架构说明
479 0
推荐系统召回算法及架构说明|学习笔记
|
机器学习/深度学习 消息中间件 分布式计算
推荐系统排序算法及架构说明|学习笔记
快速学习推荐系统排序算法及架构说明
190 0
推荐系统排序算法及架构说明|学习笔记