HP Social Computing Lab关于社会化媒体影响力和消极性的研究报告

简介:

郑昀 20100806

话说惠普有一个研究社会化网络数据挖掘的 Social Computing Lab(SCL) 实验室,领头的是 Bernardo Huberman 博士。

他们最近发布了一个研究报告《Influence and Passivity in Social Media》,基于250万用户的2200万 Tweets 数据。它的一个结论是:the correlation between popularity and influence is weaker than it might be expected,名气和影响力没什么关联,比人们期望的弱得多,High numbers of followers does not equal influence because those followers do not re-Tweet,名气和影响力是两码事,关注者多不等于有影响力,重要的是有多少人愿意转发你的消息

最简单测量你的名气和影响力之间关系的是,发布一个能统计点击次数的短域名网址,看看到底有多少人从你的这条 Tweet 点击,别管你有多少万关注者,你是否有足够的影响力让人点击一个链接。

做PR或Ad的公司要注意这一点,想让微博客上的人帮你营销,不要只看他的 Followers/关注者/粉丝 数量,这数字没啥用,要精确测量他的真正影响力

惠普的这个研究由于并不特定针对 Twitter ,所以它的结论也适用其他社会化网络。

 

加入了 Passivity 维度

大多数人都只是信息的消极接收者,他们并不会把东西转发到自己的网络里。为了让一个人有影响力,不应该仅仅停留在吸引别人的注意(眼球)从而变得有名上,还需要让用户克服他们的消极性(passivity)。

SCL 利用人在 Social Network 里的消极性,设计了一个影响力通用模型。它还开发了一个算法来量化网络中所有人的影响力,有点类似于HITS算法,综合考虑了网络的结构属性和用户之间的传播行为。

一个用户的影响力不仅依赖于他影响到的听众的多少,而且依赖于他们的消极性。

以前的影响力测量方法则主要基于一些个体的统计属性,比如关注者的数量,比如锐推(retweets)的数量。

SCL的这个算法有很好的预测能力,比如预测一个发布链接的点击次数上限会是多少。

SCL还发现那些高消极性的节点(node),大多数都是垃圾制造者(spammers)或者机器人账户(robot users)。(注:不知道SCL如何评估@rtmeme这种机器人。)

 

实作

SCL 像锐推榜一样也是从Twitter Search API进去,查询包含 http 关键词的 Tweets ,试图收集齐提到链接的 Tweets(下称“链接推”)。历经300小时,获得了2200万条相关消息,其中1500万条的链接经过检查是有效格式。据他们评估,这2200万只是那个时间段内 Twitter 全部消息的十五分之一。

然后对这个集合中的用户,逐一通过 Twitter API 查询该用户的元数据,尤其是 followers/followings 的数量。

这样就得到了一个带着时间戳的 URL 集合,一个对应用户的完整的 Social Graph 。

 

user retweeting rate=用户A决定转发的URLs数量 / 用户A从他的 followings(他所关注的人)接收到的 URL 数量 。

audience retweeting rate=用户A发布的URLs中被 Followers(关注者)所转发的数量 / 用户A的一个 follower(关注者)从A这里所接收到的 URL 数量 。

 

很容易计算用户之间的 pairwise influence 关系,比如在 Twitter 里,要计算用户A对用户B的影响力,只需要统计B锐推A的次数即可。但你很难利用这种 pairwise influence 信息去计算一个用户(如@zhengyun)对整个网络的影响力。

SCL设计了 IP(Influence-Passivity) 算法,每一个用户都有一个 influence score 和 passivity score 。一个用户的 passivity 得分用来评估其他人想要影响到他有多难。

该算法有以下假设:

1、一个用户的 influence score 依赖于她所能影响的人数以及这些人的 passivity 。

2、一个用户的 influence score 还要考虑到,她所能影响的人专注程度(how dedicated)。

3、一个用户的 passivity score 依赖于这样一些人的影响力:她能接收到这些人的消息但却没有被影响到。

4、一个用户的 passivity score 还要考虑到,how much she rejects other user's influence compared to everyone else.

 

算法迭代计算 passivity 和 influence 得分,有点像 HITS算法 的寻找 Authority 页面以及指向它们的 Hub 页面。

给定一个加权有向图(weighted directed graph,也叫带权有向图) G = (N,E,W),N是所有节点的集合(nodes),E是弧的集合,W是权值。某条弧 e = (i,j) 的权值 Wij ,代表一个比率:i 对 j 的影响力 / i 试图施加在 j 上的全部影响力。

IP算法将这个 graph 作为输入。SCL 是这样构图的:

nodes是那些曾经发布过三条以上链接推的人。

如果用户 j 曾经至少锐推过用户 i 的链接推一条,那么弧arc (i,j)就存在。这条弧的权值计算公式为:Wij=Sij/Qi,其中,Sij是用户 i 发布的链接推中被用户 j 锐推的数量,Qi 是用户 i 发布的链接推数量。

最终计算时,SCL 的这个 graph 的节点数是 45万个,1百万条弧,平均权值是0.07。

在这个 graph 数据基础上,SCL 计算了 PageRank、Influence和Passivity 得分、Hirsch Index.

(注:H-index ,是一种评价学术成就的方法。一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。h指数能够比较准确地反映一个人的学术成就。一个人的h指数越高,则表明他的论文影响力越大。例如,某人的h指数是20,这表示他已发表的论文中,每篇被引用了至少20次的论文总共有20篇。)

在 Twitter 里,一个用户的 H-index 是 h ,代表他的被人锐推了至少 h 次的链接推总共有 h 条。

(待续)

目录
相关文章
|
9月前
|
人工智能 自然语言处理 数据可视化
DeepSeek使用终极指南:解锁国产大模型的隐藏实力
DeepSeek作为国产大语言模型的佼佼者,支持多模态交互,在编码、数学和逻辑推理等方面表现卓越。本文从基础操作到进阶技巧全面解析其高效使用方法,涵盖精准提问法则、文件交互技巧、高级指令应用等,并提供智能客服、数据分析、教育培训等典型场景实战案例。同时提醒用户注意提问禁忌与安全规范,帮助开发者和普通用户充分挖掘DeepSeek的潜能,提升工作效率,探索智能解决方案。
692 0
|
11月前
|
搜索推荐 UED Python
实现一个带有昼夜背景切换的动态时钟:从代码到功能解析
本文介绍了一个使用Python和Tkinter库实现的动态时钟程序,具有昼夜背景切换、指针颜色随机变化及整点和半点报时功能。通过设置不同的背景颜色和随机变换指针颜色,增强视觉吸引力;利用多线程技术确保音频播放不影响主程序运行。该程序结合了Tkinter、Pygame、Pytz等库,提供了一个美观且实用的时间显示工具。欢迎点赞、关注、转发、收藏!
452 94
|
8月前
|
SQL 存储 分布式计算
《深度洞察:Hadoop生态系统与SQL的奇妙联动》
Hadoop生态系统如同一座工业城市,包含HDFS、MapReduce、YARN等核心组件,协同处理海量数据。SQL作为经典数据语言,在Hadoop中通过Hive等工具发挥重要作用,降低使用门槛、提升查询效率,并助力数据集成与治理。二者的结合推动了大数据技术发展,未来将在AI、物联网等领域展现更大潜力,持续优化数据处理与分析能力,为科学决策提供有力支持。
164 33
|
12月前
|
编解码 API 数据安全/隐私保护
自学HarmonyOS Next记录:实现相册访问功能
最近我决定开发一个鸿蒙App,旨在提供更好的照片管理体验。通过使用PhotoAccessHelper API,我实现了访问、显示和管理设备相册中的照片。过程中遇到了权限不足的问题,通过在config.json中添加权限声明并编写权限检查代码得以解决。此外,我还实现了分页加载和展示照片详细信息等功能,提升了用户体验。这次开发不仅让我掌握了API的使用,也深刻体会到鸿蒙系统对用户隐私和数据安全的重视。 总结这次开发,我不仅学到了技术知识,还明白了开发者保护用户数据安全的责任。未来将继续探索更多功能,欢迎关注和收藏!
879 70
自学HarmonyOS Next记录:实现相册访问功能
|
9月前
|
人工智能 数据挖掘 Linux
DeepSeek满血版大赏:官方得了“MVP”,第三方是“躺赢狗”?
DeepSeek开源了6710亿参数的R1和2360亿参数的V3两大满血版模型,助力第三方AI平台快速提升性能。此举不仅扩大了DeepSeek的技术影响力,还通过数据飞轮效应优化模型,同时为企业级用户提供灵活变现方式。对于大众,这意味着更多选择、更低使用成本和更快技术迭代。尽管第三方平台可能“阉割”或定制功能,但它们将顶级AI带入更多场景,如比亚迪车机、腾讯元宝等,让AI更普及。官方与第三方各有所长:官方提供最强性能,第三方确保稳定体验。最终,DeepSeek与第三方共同推动AI发展,实现技术普惠。
417 2
|
9月前
|
人工智能 搜索推荐 API
零门槛、即刻拥有 DeepSeek-R1 满血版
今天来教大家如何用阿里云百炼平台和开源工具 Open WebUI,零门槛(甚至零成本)、即刻拥有 DeepSeek-R1 满血版!全程无需复杂代码,跟着我做就能拥有企业级 AI 服务!我只花了不到半小时就完成了整个服务的部署。
|
12月前
热门短剧搜索网站+内置1.2万条短视频数据+无授权开心版
热门短剧搜索网站+内置1.2万条短视频数据+无授权开心版;运行环境PHP7.2+MYSQL5.6+伪静态
170 9
|
12月前
|
人工智能 安全 搜索推荐
AI 驱动研发模式升级,蓝凌软件探索效率提升之道
蓝凌软件在引入通义灵码后取得了较明显的效果。目前,蓝凌软件已使用灵码的开发人员中,周活跃用户占比超过90%、根据代码库自动生成的代码占比超33%、代码智能补全占比29%,代码注释率提升了15%,有效提升了产品代码工程化的效能。
ThreeJs制作全息投影视频
这篇文章介绍了使用Three.js来创建全息投影效果的视频教程,涵盖了实现全息效果的技术要点和具体实施步骤。
448 2
ThreeJs制作全息投影视频