利用机器学习,Pinterest如何获得1.5亿每月活跃用户?

简介:

在Pinterest网站上,我发现到处都是能吸引我的图片。我就好像是和最好的朋友踏进了一个party聚会。我看到的所有Pin图钉都非常有趣,这真是一种让人身心愉悦的使用体验。

Pin图钉中有中世纪的浅棕色皮质沙发、一间配有深棕色木质百叶窗的房间、在iMac电脑背后的书架、肉桂卷等等......

所有的这些推荐,并非是空穴来风。每一件事物都是我之前曾在Pinterest版墙上贴过的图片,抑或是之前我浏览过以及搜索过的。就拿肉桂卷来说——这是因为我关注的某个账号贴出了肉桂卷。

这绝非是巧合。Pinterest的工程师们一直在优化应用为用户提供推荐Pin图钉的系统。美国境内的用户,比如说我自己,已经习惯了这种个性化设置。但如今,Pinterest拥有1.5亿多名每月活跃用户,大部分加入Pinterest的用户都是在美国境外的。为了继续促进公司的发展——用户使用率相比去年增加了50%,去年Pinterest仅有1亿名每月活跃用户——Pinterest采取了各式各样的方案,包括采用人工智能、更快的排名系统以及内容的本地化。

当然,其他极具前途的公司(比如说Airbnb以及Spotify)也在为用户提供个性化设置并将提供的内容进行本地化处理,为的就是获得更多的用户并且保证用户保持率。多亏了Pinterest用户整理的庞大图片收集库,Pinterest从诸多公司中脱颖而出。在过去两年来,Pinterest逐步采取措施。如今看来,收效甚好。

“在我们进军全球市场的过程中,你可以发现我们的关注点在哪里,从而理解为什么视觉信号具有如此大的价值。”Pinterest的首席数据科学工程师Mohammad Shahangian在采访中这样说道。

深度学习

Pinterest提供的四大重点功能均使用了深度学习技术,它们分别是:本地消息流、搜索、相关Pin图钉以及图片搜索。今天,恰好是第四项内容(即图片搜索)推出的一周年纪念日。

图片搜索系统取决于一种叫做深度学习的人工智能,这包括训练人工神经网络对数据的处理,比如说pin图钉里的照片。之后,通过神经网络来对新数据进行推断。苹果、Facebook、谷歌、微软以及其他公司都在广泛使用此项技术,如今大家可以获得越来越多的数据以及计算能力。

Pinterest将此项技术应用到了图片搜索之中,这种方式绝对可以吸引用户的注意力。你只需要点击Pin图钉顶角的放大镜,你就可以调整叠映在图片上的长方形的大小和位置。之后,软件就可以找到与长方形框内的内容相似的图钉。此外,某些情况下,你还可以点击图钉中出现在物体上方的点,之后就会呈现出其他含有类似图片的图钉。

此外,Pinterest也开始使用深度学习来优化应用里的其他部分——比如说决定相关Pin图钉内容。

Pinterest对于你刚刚贴出的图钉有很多的了解,部分原因是因为一些其他用户也在贴图钉的过程中贴了这些内容。这就是所谓的“共现关系”,这也可以强烈地暗示出这些图钉都是相关的。但有些时候——比如说在一个当地语言并不是那么通行的国家——一个用户贴出了图钉,但Pinterest之前从未见到过,那么关于图钉有关的文字,Pinterest能做的就不多了。但这时候深度学习就可以起到很大帮助作用了。类似的图钉内容可以让Pinterest了解到文字所说的是什么。

Shahangian表示基于上述内容,Pinterest就可以开始为用户提供相关图钉内容的推荐了。

但是!请注意!深度学习并非是Pinterest推荐系统里的主要驱动因素,即便你认为在图片网站中,图片数据的地位是至高无上的。

“其实在最后,你还是会更倾向于知道‘用户都创建了什么内容?’以及‘用户都做了些什么’,并且将此当做是最终信号来决定推荐内容......这是因为这两件事是相关性最高的。”Pinterest的首席视觉搜索工程师Dmitry Kislyuk在采访中说道,“这也是一个了解内容的绝佳机会,尤其是那些我们了解甚少的内容(用户的行为往往能给我们带来提示)。”

排名

2015年5月,Pinterest引入了排名系统,从而根据Pinterest预测用户的参与度程度来改变Pin图钉的顺序。

这一举措带来的影响无疑是深远的。公司相关推荐图钉的工程师Stephanie Rogers表示这增加了30%的相关推荐图钉数。

但在今年1月,Pinterest又采取了下一步措施。公司停止使用批量处理的机器学习系统来根据用户的行为重新排列内容的顺序,这一排名过程可以说需要一夜时间来完成。事实上,公司开始使用实时重新排列,这仅仅需要数秒就可以完成——速度之快使得Pinterest有足够的时间去改进相关推荐图钉的顺序,而与此同时用户也可以更加仔细得挑选图片。

Pinterest还将用户最近的活动行为考虑在内,比如说你最近的搜索以及你保存的最新图钉。

“举个例子,比如说你也许在搜索某一位明星,之后你就会看到明星穿着一套礼服,你点击该图钉。”Rogers说道,“相关推荐的内容就会包括这位名人而不是她们穿的礼服。”

Rogers表示通过把用户最近活动考虑在内,这使得用户保存图钉的数量增加了4%。

本地化

过去一年来,Pinterest采用了一些技巧来在国外城市获得牵引力。

“在这些新兴国家,一切都属于长尾内容(以前不太常见、但现在已经普及的内容)。”Shahangian这样说道。因此,深度学习的地位非常重要。快速排名当然也很重要,这是因为人们最先看到的事物会对未来的参与度会产生很大影响。此外,还有其他一些原因。

员工们明白一些内容(比如说图片、发型或是美容)在许多国家广受欢迎,而其他一些图片内容则表现得平平淡淡。比如说,其他国家与婚礼相关的Pin图钉就没有在美国那么受欢迎了。

Pinteres打造了机器学习模型,来集中关注某一个城市单个范畴的内容。随着一些范畴已经开始流行,Pinteres可以借此确定早期使用者。Shahangian 表示Pinteres还需要找到某些国家的“测试者”,他们可以时不时得将Pin图钉贴在Pinteres上。

以用户的本土语言来提供内容,这一点非常重要。

“通过各式各样的技术,我们基本上已经将本地内容的展示份额从8%提升到了54%。”Rogers这样说道。换句话说,用户看到的内容有一半多都是以他们自己选择的语言来呈现的。

发言人在邮件中表示用户对Pinterest的本地化工作很是赞赏,这是因为在某些情况下,这会增加用户的参与度。

接下来的安排

正如你的预测,Pinterest对下一步的计划确实也有了一些构想。

一方面,Pinterest开始重新对图片搜索结果进行排列,这就如同它在处理相关Pin图钉时一样。

它还可以着手将深度学习应用到自然语言处理当中,凭此来做出一些推荐。Kislyuk 表示Pinterest的广告团队已经在进行实验了。

此外,公司还可以采取更多措施来将搜索结果推广给用户。比如说,Pinterest可以开始将它自己的能力告知公众:给定一个图像,Pinterest可以识别一个物体。

这种体验在现在已经是可以实现的了,但用户并没有过多察觉到这一点——尽管此举已经让许多用户印象深刻并且为他们提供了很大帮助。

几周之前,Rogers在电视上看到了一个清真寺,然后她拍了一张照片并将其贴到了Pinterest上。在进行图片搜索之后,她可以找到含有同样一座建筑物的Pin图钉,而这块Pin图钉的描述内容显示这个清真寺位于伊朗。“如今我知道这是在什么地方了。”她在回忆当时的情况时这样说道,“这种感觉太棒了。”

Pintastic的数据

每月2亿图像搜索

1.5亿每月活跃用户,每年增长比例最高可达50%

750亿Pin图钉数

每秒2000万Pin图钉推选图片

每天推荐的Pin图钉数达到100亿,是去年的两倍

每秒针对相关Pin图钉的消息流搜索达到3万次

本国消息流中的本地化Pin图钉数(根据国家和语言)增长了250%

75%的注册用户来在美国以外的国家

40%注册的人都是男性,如今该数据最高可达70%

相关Pin图钉带来了30%的参与度

通过将“Pin it”变为“保存”,美国以外的新用户数量又增加了20%

由于最近国内信息流的算法更新了,参与度又增加了12%

由于Pinterest为每位用户推出了个性化话题,每周活跃用户数量增加了10%

根据特定国家的话题重新设计了用户体验之后,活跃度增加了10%-15%

由于公司开始根据用户最近保存或是搜索的内容来尝试排列相关Pin图钉,保存数量增加了4%,本地化相关Pin图钉数增加了5%

自从推出了Pin图钉中的发现物品功能,用户存储Pin图钉的几率增加了6倍;探测的物品数量多达数亿

对在美国境外的用户而言,个性化Pin图钉数增加了5倍

相比去年,如今美国境外的用户在搜索以及相关Pin图钉中看到本地化内容的可能性增加了3倍

在全面修改之后,应用的速度相比以前提升了3倍

相比去年,使用图片搜索的用户数量增加了一倍

本文转自d1net(转载)

目录
相关文章
|
5天前
|
机器学习/深度学习 搜索推荐 TensorFlow
LiRank: LinkedIn在2月新发布的大规模在线排名模型
LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。
19 3
|
6月前
|
存储 自然语言处理 安全
用户增长实战-商业模型
有路必有福,有路必有胜。
70 0
|
9月前
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
276 0
|
9月前
|
机器学习/深度学习 存储 缓存
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会(1)
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会
|
9月前
|
机器学习/深度学习 存储 缓存
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会(2)
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会
108 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
108 0
|
机器学习/深度学习 人工智能 自然语言处理
腾讯“混元”AI 大模型刷新 CLUE 分类榜历史记录
4 月 29 日,腾讯“混元”AI 大模型在 CLUE(中文语言理解评测集合)分类榜中取得第一名,分数突破 80.888 分,接近人类语言理解能力,刷新该榜单历史记录。这是“混元”AI 大模型在斩获跨模态检索榜单大满贯后,取得的又一突破性进展,展现了该模型在自然语言处理上的实力。
329 0
腾讯“混元”AI 大模型刷新 CLUE 分类榜历史记录
|
机器学习/深度学习 搜索推荐 算法
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec
知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集「ZhihuRec」。该数据集包含了知乎上的 1 亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
487 0
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec
|
机器学习/深度学习 Kubernetes 负载均衡
独家揭秘:微博深度学习平台如何支撑4亿用户愉快吃瓜?
随着深度学习在微博业务场景中的广泛使用,深度学习平台也遇到一些挑战:在离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。新浪微博基于K8s构建了分布式离线与在线方案,解决了上述两个维度遇到的挑战。 新浪微博机器学习研发架构师于翔老师在ArchSummit全球架构师峰会2018北京站分享了《微博深度学习平台基于 K8s 的解决方案》主题演讲,介绍了微博深度学习平台概况,以及他们在离线与在线两个维度基于 K8s 的应用实践,我们对演讲内容进行了整理,希
2411 0
独家揭秘:微博深度学习平台如何支撑4亿用户愉快吃瓜?
|
机器学习/深度学习 存储 人工智能
机器学习下一个万亿级的增长从哪来?
果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。
456 0
机器学习下一个万亿级的增长从哪来?

相关产品