社交网络把互联网转化成为一个复杂的关系网,社交图谱分析提供了一种了解这种关系的方法。Facebook CEO马克·扎克伯格最早提出社交图谱这样一概念,它是一种表明“我认识你”的网络图谱。它反映了用户通过各种途径认识的人:家庭成员、工作同事、开会结识的朋友、高中同学、俱乐部成员、朋友的朋友等等。社交图谱主要由一些主流的社交网络产生,用户向自己认识的人发送邀请来构建和维持他们的社会关系。
社交图谱模型是细粒度用户行为预测建模强有力的推动者,因为它能够更全面的结合群组、人际关系和影响力等语境明确潜在的个人行为。这些模型通过分析用户的行为和互动交流,提供客户体验详尽细微的观点。
在进行社交图谱分析时,如果你只对少数人感兴趣,分析工作会很简单。只需要调查他们之间的关系,或者挖掘与他们相关的行为数据即可。另一方面,如果你设法评估动态的行为模式,如地球上的每个人、每个地点、每件事之间可能的关系,加上他们可能对彼此谈话的内容,动态、实时、完美的预测他们未来的行为……这些都是不现实的,只能出现在科幻小说的幻想世界中。
世界正在逐渐意识到社交图谱分析的潜能,在公众、个人和研究机构扩大应用范围。它正在迅速发展成为一个大数据市场最有前途的细分领域,并成为各种商业和开源图形数据库(通常是NoSQL)的核心应用。在很多企业中,社交图谱分析已经在反欺诈、影响力分析、舆情监测、市场细分、参与优化、体验优化,以及其他需要快速确定复杂行为模式的领域成功应用。
为了激发更多的潜能,社交图谱分析产生的大数据源一触即发。在最基本的层面上,你可以模拟社交图谱,如节点与线路、实体与关系、个体与社会等形成的网络图。图形分析专家使用”vertex”和”edge”等术语做着类似的工作。有消息称,相关公共部门执行大规模并行图形分析的基础设施,包括4.4万亿节点(记录)和70万亿的边界(这些记录之间的关系)。Facebook自有社交图谱分析的基础设施能够处理数十亿节点和万亿级的边界。
可以想象一下,网络级图形分析正在自发的大规模运行,存储处理、内存、互连、数据中心的面积和功耗等,令其他任何大数据的部署变得相形见绌,它有以下四个方面的优势:一是可扩展性需求实现跨越式增长;二是数据源的范围不断扩大;三是数据容量、多样性、工作负载的并发性不断增长;四是对实时性、低延迟的需求快速上升到新的高度。
图形分析将推动大数据的规模和复杂度进化到下一个高度。Hadoop是这一进化过程的重要组成部分,但它不一定是核心。将全部数据存储的在内存中的大规模并行图形数据库架构将推动这一进程,还有NoSQL数据库,它们专注于发现、关联和预处理所有来源的行为数据。
如果你对图形分析产生了浓厚的兴趣,就需要熟悉大数据的3V特征,即容量、速度和多样性。随着硬件成本的不断降低和对数据计算架构的把握,在不久的将来,将有很多组织机构开始运作全球范围的图形分析云,这些分析云将在内存中零延迟的处理EB级的数据。
原文发布时间为:2013-08-18
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号