Twitter推荐算法解读

2023-05-22 1923

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近 Twitter 开源了其最宝贵的财产——推荐算法！本文将带你了解 Twitter 是如何做内容推荐的。

Twitter推荐算法解读

最近 Twitter 开源了其最宝贵的财产——推荐算法！

每天，人们会在 Twitter 上发布超过 5 亿条推文，Twitter 会向用户推送超过 1500 亿条推文。Twitter 的推荐算只会向用户推荐少数与其相关且有吸引力的热门推文。跟抖音等UGC平台类似，好的推荐算法是 Twitter 成功的制胜法宝。本文将带你了解 Twitter 是如何做内容推荐的。

揭秘推荐算法

推荐算法由三个阶段构成，这三个阶段由一个管线串联起来：

候选推文采集
推文排名
推文过滤

1. 候选推文采集

首先，从数亿条推文中提取与用户相关的最佳 1500 条候选推文。

候选推文主要有两个来源：你关注的人和你不关注的人。推文以 50-50 的比例来自这两个来源。

推文来源使用两种图形处理技术：Real Graph 和 GraphJet，前者是一种称为 SimClusters 的嵌入技术，后者是一种自定义矩阵分解算法。

简单地说，候选推文采集系统中的组件试图回答这些问题：

两个用户之间参与的可能性有多大？
如果你不关注作者，我们如何判断某条推文是否与你相关？
我关注的人最近与哪些推文进行了互动？
谁喜欢与我相似的推文，他们最近还喜欢什么？
哪些推文和用户与我的兴趣相似？

2. 推文排名

这一步使用称为 Heavy Ranker 的神经网络对每个候选推文的相关性进行评分。这个神经网络大约有约 48M 参数。该系统考虑了数以千计的特征，为每条推文打分。

以下是对输入到 Twitter Heavy Ranking 模型的主要特征组的描述。

聚合特征

Twitter的聚合特征构成了Twitter的大部分特征，并且是通过特定时间窗口内维护特定范围内特征值的滚动聚合生成的。 Twitter 计算长期（50 天计算）和短期（“实时”- 3 天以内，通常为 30 分钟计算）的聚合。

聚合特征列表如下：

author_aggregate
author-topic_aggregate
list_aggregate
user_aggregate
user_author_aggregate
user_engager_aggregate
user_inferred_topic_aggregate
user_media_annotation_aggregate
user_mention_aggregate
user_request_context_aggregate
user_topic_aggregate
topic_aggregate
tweet_aggregate

非聚合特征

Twitter 还有许多独立特征用于捕获有关用户、推文、作者和推文上下文的信息。

two_hop
realgraph
authors.realgraph
recap.tweetfeature, recap.searchfeature 等
tweetsource
in_reply_to_tweet
timelines.earlybird
realtime_interaction_graph
user_tweet.recommendations
other

嵌入特征

Twhin 是在 Twitter 数据上训练的大型图嵌入。我们使用来自 Twhin 算法的三个200维嵌入。

Twhin Follow Embeddings
Twhin Engagement Embeddings

⚠注意，由于用户设置或其他限制，对于每个请求并非所有特征都可用，并且基于不同变量的“为你推荐”排名可能存在一些差异。

3. 推文过滤

基于各种因素过滤候选推文，从而建立均衡且多样化的提要，例如

被冻结的账户
重复推文
不同的作者
编辑过的推文
NSFW 内容等

使用 Home Mixer 服务提供推文

上面三个阶段完成后，就可以将选定的推文推送给用户了。

Twitter 有一个名为 Home Mixer 的服务，专门用于构建 为你推荐（For You） 时间线。Home Mixer 主要基于 Scala 编程语言开发，将所有推荐阶段连接在一起。它还负责将推文与其他非推文内容混合在一起，例如广告、关注推荐和登录提示。

我们上面讨论的整个流水线每天运行大约 50 亿次，平均完成时间不到 1.5 秒。

总结

尽管本文没有深入到算法的技术细节，但所有的代码和资料 Twitter 都已经开源到 GitHub 上。后面我会带大家逐个模块探索实现细节。Twitter 肯将自己最宝贵最核心的算法开源出来非常伟大，正如Elon Musk说的，他确实在试图解放这只蓝鸟，并使其对用户更加透明。

Twitter推荐算法解读

Twitter推荐算法解读

推荐算法组成

揭秘推荐算法

1. 候选推文采集

2. 推文排名

聚合特征

非聚合特征

嵌入特征

3. 推文过滤

使用 Home Mixer 服务提供推文

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Twitter推荐算法解读

Twitter推荐算法解读

推荐算法组成

揭秘推荐算法

1. 候选推文采集

2. 推文排名

聚合特征

非聚合特征

嵌入特征

3. 推文过滤

使用 Home Mixer 服务提供推文

总结

热门文章

最新文章

相关课程

相关电子书