《R语言数据挖掘》——1.4 社交网络挖掘

简介: 本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.4 社交网络挖掘

正如我们前面提到的,数据挖掘是从数据中发现一个模型,社交网络挖掘就是从表示社交网络的图形数据中发现模型。

社交网络挖掘是网络数据挖掘的一个应用,比较流行的应用有社会科学和文献计量学、PageRank和HITS算法、粗粒度图模型的不足、增强模型和技术、主题提取的评估以及网络的评估与建模。

社交网络

当涉及社交网络的讨论时,你会想到Facebook、Google+和LinkedIn等。社交网络的基本特征如下:
存在一个参与网络的实体集合。通常情况下,这些实体是人,但它们也完全可能是其他实体。

网络的实体之间至少存在一种关系。在Facebook上,这种关系被称为朋友,有时,这种关系要么存在要么不存在,两个人要么是朋友要么不是朋友。然而,在社交网络的其他例子中,关系有一个度。这个度可以是离散的,比如在Google+上,朋友、家人、相识或者不相识;这个度也可能是一个实际的数字,比如平均一天内两个人相互交谈所花费的时间。

社交网络有一个非随机性或者忠诚性的假设。这个条件最难形式化,但直观解释是关系趋于集中;也就是说,如果实体A与B和C都相关,那么B与C相关的概率就高于平均水平。
下面是社交网络的一些种类:
电话网络(telephone network):该网络的节点是电话号码,代表个体。

电子邮件网络(E-mail network):该网络的节点是电子邮件地址,也代表个体。

合作网络(collaboration network):该网络的节点代表发表了研究论文的个体,连接两个节点的边表示联合发表一篇或者多篇论文的两个个体。

社交网络以无向图建模。实体是节点,如果两个节点根据刻画网络的关系相互关联,那么就有一条边连接两个节点。如果相关联的关系有一个度,那么这个度就通过标记边来表示。

下载代码示例

你可以从http://www.packtpub.com的账户中下载所有你购买的Packt出版社出版的书籍的示例代码文件。如果你在其他地方购买了这本书,你可以访问http://www.packtpub.com/support网站并注册,我们将通过电子邮件直接给你发送文件。

这里有一个例子,它是用R语言的sna程序包中的科尔曼高中朋友数据(Coleman’s High School Friendship Data)进行分析。数据来源于对某个学年同一高中的73个男孩之间的友好关系的研究,所有被调查对象提供了两个时间点(春季和秋季)来报告其关系。数据集的名称是coleman,它是R语言中的数组类型。节点代表一个具体的学生,线代表两个学生之间的关系。


5096c71d3e7451fe7eb7aa2a63ed8caa0e047d0e


a6dccc9eb1c05f1f3d1b1697e0733d51958c3a67
相关文章
|
6月前
|
人工智能 算法 数据挖掘
数据挖掘(3.1)--频繁项集挖掘方法
关联规则挖掘是数据挖掘领域中研究最为广泛的也最为活跃的方法之一 关联规则反应了一个事物和其他事物之间的相互依存性和关联性 如果存在一定的关联关系,其中一个事物就可以通过其他事物预测到 最小支持度:就是说当支持度达到一定的阈值后,某种数据才有被挖掘的潜力这个阈值就是最小支持度计数(min_sup)。
73 0
|
8月前
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
14小时前
|
算法 定位技术 Windows
R语言最大流最小割定理和最短路径算法分析交通网络流量拥堵问题
R语言最大流最小割定理和最短路径算法分析交通网络流量拥堵问题
|
4月前
|
算法 数据挖掘 数据库
【数据挖掘】频繁项集挖掘方法中Apriori、FP-Growth算法详解(图文解释 超详细)
【数据挖掘】频繁项集挖掘方法中Apriori、FP-Growth算法详解(图文解释 超详细)
134 0
|
28天前
|
数据采集 存储 Scala
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容
本文介绍了如何使用Scala和Fetch库下载Facebook网页内容,同时通过爬虫代理服务(以亿牛云为例)绕过网络限制。代码示例展示了配置代理服务器、多线程爬取及内容存储的过程。注意实际应用时需替换代理服务器配置和目标URL,并考虑应对复杂的反爬虫机制。此方法兼顾匿名性和效率。
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容
|
2月前
|
XML 数据采集 存储
挖掘网络宝藏:R和XML库助你轻松抓取 www.sohu.com 图片
网络上有无数的图片资源,但是如何从特定的网站中快速地抓取图片呢?本文将介绍一种使用 R 语言和 XML 库的简单方法,让你可以轻松地从 www.sohu.com 网站上下载你感兴趣的图片。本文将涉及以下几个方面: ● 为什么选择 R 语言和 XML 库作为图片爬虫的工具? ● 如何使用 R 语言和 XML 库来访问、解析和提取网页上的图片链接? ● 如何使用代理 IP 技术,参考亿牛云爬虫代理的设置,避免被网站屏蔽或限制? ● 如何实现多线程技术,提高图片爬取的效率和速度? ● 如何将爬取到的图片保存到本地或云端,进行数据分析和可视化?
|
2月前
|
网络协议 安全 搜索推荐
【网络安全 | 子域名/信息收集】子域名挖掘方式总结(全网最详细)
【网络安全 | 子域名/信息收集】子域名挖掘方式总结(全网最详细)
104 0
|
8月前
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
8月前
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
|
4月前
|
机器学习/深度学习 存储 人工智能
Nougat:结合光学神经网络,引领学术PDF文档的智能解析、挖掘学术论文PDF的价值
Nougat:结合光学神经网络,引领学术PDF文档的智能解析、挖掘学术论文PDF的价值