人际图谱:Facebook的数据挖掘功臣

简介:   建立与发展   Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据,Facebook就无法实现广告受众定位,也不能帮助你找到高中好友。

  建立与发展

  Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据,Facebook就无法实现广告受众定位,也不能帮助你找到高中好友。为了利用用户数据中的各种细节信息,Facebook的工程师们必须建立一个数据集,其中需要包含能够将不同用户之间建立联系的各种信息。工程师们的解决办法是利用维基百科上的现有数据。

  很多用户之间的关联信息无法直接和现有页面建立联系,借助维基百科上的各种条目,Facebook工程师们建立了“数百万个‘回退’页面”,然后手动去除重合和无效的页面。此外,工程师们还需要针对用户信息中的书名和电影名等信息进行手动调整。

  Facebook的人际图谱团队还利用了WordNet数据库等工具分析用户信息,配合用户兴趣数据集向用户推荐好友。比如,在简介中提及“有些朋友会滑雪”的用户会和那些在滑雪运动页面上点“赞”的用户归类到一起。

  

      人际图谱现状

  根据Facebook工程师埃里克·孙(EricSun)的说法,人际图谱如今的增长速度是他们始料未及的。他表示,该团队目前的主要任务是“打造能够不断优化图谱的多分支、可扩展系统”。

  目前,Facebook对用户信息的挖掘已经非常深入。比如,如果你对歌曲“Help”点了赞,Facebook知道创作它的是披头士乐队,它也知道你有哪些好友喜欢披头士。如果你去了某家餐馆,Facebook知道它的位置、用户群体、用户住处。帮助Facebook发掘出如此多的数据的正是人际图谱计划。


原文发布时间为:2013-07-30


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
存储 关系型数据库 MySQL
【阿里规约】阿里开发手册解读——数据库和ORM篇
从命名规范、建表规范、查询规范、索引规范、操作规范等角度出发,详细阐述MySQL数据库使用过程中所需要遵循的各种规范。
【阿里规约】阿里开发手册解读——数据库和ORM篇
|
运维 Cloud Native Java
SLS支持高精度时间戳和全局排序
日志内容本身是一种重要信息,日志之间的相对顺序也是因果关系的一种反映,某些场景下如果日志内容完全相同,但是日志间的顺序错乱了反映出来的结果可能和真实世界里面的事件完全相反。
62624 12
SLS支持高精度时间戳和全局排序
|
设计模式 Go
go 设计模式之观察者模式
go 设计模式之观察者模式
|
Java 容器 Spring
|
6天前
|
人工智能 运维 安全
|
4天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
540 14
|
11天前
|
人工智能 JavaScript 测试技术
Qwen3-Coder入门教程|10分钟搞定安装配置
Qwen3-Coder 挑战赛简介:无论你是编程小白还是办公达人,都能通过本教程快速上手 Qwen-Code CLI,利用 AI 轻松实现代码编写、文档处理等任务。内容涵盖 API 配置、CLI 安装及多种实用案例,助你提升效率,体验智能编码的乐趣。
898 109