翻译:mxwu
社交网络,一个古老而又普通的人际交流方法,在Web时代变得流行起来。在给人们提供了跟踪朋友、熟人和家人生活的方法之后,使用SNS的人数在这个世纪初成指数级发展。
Facebook,LinkedIn和MySpace,作为几个例子,拥有了上百万的用户,用户们使用SNS,在需要的时候关注其他人,寻找专家甚至参与商业活动。此外,商业公司尝试使用SNS开拓市场,因为SNS提供了一个准备好的平台,可以针对那些有相同兴趣的人传播信息。
学术界在SNS的构造和演化上积累大量的知识——使用了简单已有的数据和在网络中节点与连接的统计学规律。
社交网络的标准定义包含了人和他们的社会关系,然而事实上,人们却只和和那些“列”在他们网络中的极少数人交流。事实背后一个重要的原因是注意力在Web时代是稀缺资源。用户面对着许多日常工作和大量社会连接,没有太多精力关注到所有人。例如,最近针对Facebook的一个研究表明,用户只和他们所有朋友中的少数人交流。
这些早期的观察暗示了一个对人们重要的自然社交网络的系统性的研究。所谓重要的网络,我们指的是那些人们和朋友、熟人有交流的网络,而不仅仅是一个定义好的朋友列表。
为了找到朋友列表和网络中成员的关系,我们从Twitter网络上搜集、分析了大量数据。 Twitter.com是一个在全世界拥有上百万用户的在线社交网络,用户们在twitter上可以和朋友、家人、同事通过电脑、手机保持联系。Twitter可以让用户发布所有其他用户可以读的少于140字的短消息。用户Follow那些他们感兴趣的人,当这些人发布新的消息时,用户就能看见。一个用户如果被其他人Follow了,他没有必要也Follow回去,这个特性导致Twitter的社交网络具有有向性。
对于我们研究的Twitter用户,我们搜集了他们的follower和followee人数,tweet的内容和发布时间。我们的数据包括了309,740个用户,这些用户平均发布了255个tweet,有85个follower并且follow了80个其他用户。在这309,740个用户中,只有211,024个用户发过2个以上的tweet,我们把这些用户称之为活跃用户。我们也定义了活跃用户的活跃时间——在他第一次tweet和最后一次tweet的时间。平均的看,活跃用户的活跃时间是206天。(译者注:twitter始于2006年3月21日,本文发表于2008年12月)
Twitter用户可以发布直接和间接的tweet。直接tweet就是reply,只有@的那一个人可以看见,间接tweet所有follower都可以看见。即使直接tweet是用来和特定一个人的交流,这些tweet依然是公开的,任何人都可以看到它们。很多时候,两个人经常使用直接tweet对话。大约25.4%的tweet是直接tweet,这说明这个功能广泛的被用户使用。
我们很关心有多少人在Twitter上使用直接tweet和每个朋友交流。我们用户的朋友做了定义:如果用户对一个人使用了2次直接tweet,这个人就是这个用户的朋友。根据这个定义,我们可以相对于用户的朋友列表,找到那些真正的朋友。
图1 Follower和tweet总数形成的函数,在Follower达到一定数量后,tweet总数饱和
图2 朋友数和tweet总数形成的函数。最终tweet总数达到了系统上限。
在我们之前所发现的,社交网络中注意力对于生产力所扮演的角色,我们推测那些得到更多关注的用户会比其他用户更多的发布tweet。因此,我们期望那些有更多follower和朋友的用户也能比其他用户更加活跃。图1和2表示,事实上tweet的总数会随着follower和朋友数目的增加而增加。但是,图1也可以看出,tweet总数在follower到达一定程度后会饱和。另一方面,图2也可以看出tweet总数却不会因为朋友数量的增加而饱和。tweet的总数一直增加到极值3201(注:由于 twitter的系统限制,每个用户只存储3201个tweet)。这个结论建议,要预测一个Twitter用户有多活跃,朋友数量对其的影响远大于follower。
这个结论也说明了,要评估一个社交网络的大小,我们需要参考的是和用户真正互相交流的人,而不是那些被声明的follower和朋友。
图3 followee比朋友和用户数的直方图。相对于定义的followee,绝大部分用户只有少数的朋友
在发现了朋友数目才是吸引Twitter用户真正动力以后,我们把它和用户定义的朋友作了一个比较。我们定义δ为朋友数量和用户定义的朋友数量之比。因为98.8%的用户朋友比follower 少,几乎所有的δ都小于1。图3展示了δ值的一个直方图。我们可以看到大部分用户的δ值小于0.1,而接近1的用户数量极少。δ的平均值是0.13,中值是0.04。这说明,相对与用户follow的人数,朋友只占了很低的比率。因此,即使用户定义了很多follower,真正保持联系的朋友其实是极少数。所以,表面上看社交网络中用户定义的follower和followee很密集,实际上影响力更大的朋友网络是稀疏的。
图4 朋友数和Followee形成的函数。朋友数在Followee达到一定程度后饱和。
图5 朋友/followee和followee形成的函数。在初期的时候会随followee增加而增加,然后迅速减少到接近0。
另外一个有趣的方面是当followee增加时,朋友和δ值如何变化。图4和图5显示,虽然朋友的数量在初期会随着followee增加而增加,但是随后朋友的数量会饱和并且保持一个常量。这个趋势可以被解释为,followe一个人比维持一个朋友的联系要容易得多。因此,虽然 followee的数量可以无止境的不停上升,但是真正有交流的朋友却不能。
总的来说,虽然使用了一个“朋友”的弱定义(任何用户对其使用过2次直接tweet的人),我们发现,相对于他们声明的follower和followee,Twitter用户只有很少的朋友。这个说明存在着两个不同的网络:一个是使用follower/followee定义的密集网络,一个是相对稀疏和简单的,由真正朋友组成的网络。而后一个由真正朋友组成的网络会比前一个网络更为重要的影响着用户的活跃度。另一方面,有许多follower和followee的用户会更加活跃。
许多人,包括学者、广告商和政治家,以为在线社交网络是一个机会,可以学习思想传播、社会结构和病毒式营销。这些观点由于我们的发现可能变得站不住脚,因为那样的两个人之间的连接并不意味着交流。以Twitter为例,在Twitter里定义的连接,大部分对于交流来说是没有意义的。因此,找到那个隐藏的社交网络,那个真正有意义的社交网络,才能达到传播思想,信仰或者是趋势的目的。
译者的话
这篇文章为我们提供了一些关于Twitter的新观点——那个真正有意义的,真正对用户产生影响的隐藏网络。然而互联网出于高速发展的时期,这篇一年多前成文的论文有些地方已经不符合现实了,特别是retweet被加入为官方特性以后,Twitter传播的特性被放大了。译者不知道,如果朋友定义为那些tweet被用户retweet和收藏过的人之后,这些结论是否还成立。但毋庸置疑,论文里那个隐藏网络的思想,值得我们深思。
译者一直在尝试使用数据来细分Twitter中的用户类型,因为只有了解的Twitter的用户类型,从而才能知道用户的需求,也才能更好的做出针对性的产品和针对性的营销,论文中的朋友也是一种用户分类的方法。译者有一些其他的简单的想法。比如根据follower和followee之比划分:
- followee/follower 大于3的,是渴望交流型,这些用户挣扎于follow了很多人,却没得到follow back。
- follower/followee 大于3的,是明星型,这些用户通常有一技之长,为他们积累的相当的人气,同时,他们大部分也都是活跃用户。
- follower=followee 且小于200的是,生活型,这些用户通常只是followe真正认识的人。
- follower=followee且大于400的是,交友广泛型,这些用户有很多朋友,也擅长和人交往。
- follower=followee且大于1000的,是信息爆炸型。这些用户会发现屏幕不停刷出新tweet,如果他真的这样使用twitter的话,那他会是一个很好的retweet专家。
其他的一些分类,还可以考虑按用户tweet的内容,时间来划分。大家有什么想法么?欢迎讨论:)
原文:http://www.hpl.hp.com/research/scl/papers/twitter/twitter.pdf