《异构信息网络挖掘: 原理和方法(1)》一2.1 概述

简介:

本节书摘来自华章出版社《异构信息网络挖掘: 原理和方法(1)》一书中的第2章,第2.1节,作者[美]孙艺洲(Yizhou Sun)韩家炜(Jiawei Han),更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.1 概述

为了更好地理解信息网络,许多分析技术被设计出来,不过它们大多是基于同构信息网络的,其中两个方法值得关注:排名和聚类。一方面,根据数学化展示对象特征的排名函数,排名评价信息网络中的对象。通过这类函数,两个定性或定量的对象可以按一种偏序进行比较。其中PageRank[10]和HITS[34]或许是信息网络中最著名的排名算法。另一方面,聚类按照特定的相似性评价将对象进行分组,因此相似的对象在同一聚类中,反之不相似的对象则在不同的聚类中。总之,作为两个基础性的分析工具,排名和聚类可以用来总览信息网络,因此被广泛地应用于各种应用。
聚类和排名通常被视为不相干的技术,它们独立地应用于信息网络分析。然而,若只使用它们中的一个来分析信息网络常常会导致不完整,甚至有时带有偏见的分析结果。例如,在不考虑信息网络中各个对象所属聚类的前提下对它们进行排名,容易导致得到无用的结果。例如,将数据库和计算机体系的刊物或作者混在一起排名,没有什么意义;另外,无差别地将大量对象(如数千作者)聚集到一个类中也是没有意义的。然而,将两个功能(聚类和排名)集成在一起,则能得到更易于理解的结果,如例21所示。
例21(带/不带聚类的排名)
考虑两组分别来自DB/DM(数据库与数据挖掘)和HW/CA(硬件与计算机体系)领域的刊物集合,每组包含10个刊物,如表21所示。根据在这些刊物的发文数量,我们从DBLP中选出每个领域的前100名作者。使用在221节中指定的权威排名函数,表22给出了仅使用排名的算法得到的top10结果。很明显,结果是相当缺乏说服力的(因为领域混合在一起)并且偏向于(即排名更高)HW/CA领域。此外,造成如此偏见的排名结果并不是因为我们选择的排名函数,而是由于两个领域间所固有的不可比性。

image

继续考虑同一数据集。如果我们聚集在DB/DM领域的刊物,并且对该聚类中的刊物和作者进行排名,可以得到表23所示的结果。

image

例21表明,好的聚类确实提升了排名结果的质量。而且,考虑对象的排名通常能更好地理解每个聚类。通过整合聚类和排名,有助于得到更易于理解的网络分析结果。
在这一章中,我们介绍两个基于排名的聚类算法RankClus和NetClus。它们分别适用于异构信息网络的两种特例,即双类型网络和星型网络。对这两种类型的网络,我们需要使用异构链接来计算排名和基于排名的聚类。

相关文章
|
网络协议 网络安全 网络性能优化
【计算机网络概述】第一章:概论 1.2什么是网络边缘
【计算机网络概述】第一章:概论 1.2什么是网络边缘
129 1
|
10月前
|
机器学习/深度学习 运维 安全
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
金融交易网络与蛋白质结构的共同特点是它们无法通过简单的欧几里得空间模型来准确描述,而是需要复杂的图结构来捕捉实体间的交互模式。传统深度学习方法在处理这类数据时效果不佳,图神经网络(GNNs)因此成为解决此类问题的关键技术。GNNs通过消息传递机制,能有效提取图结构中的深层特征,适用于欺诈检测和蛋白质功能预测等复杂网络建模任务。
365 2
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
|
10月前
|
SQL 存储 安全
网络安全与信息安全概述####
本文探讨了网络安全(Cybersecurity)和信息安全(Information Security)的基本概念及其差异,重点介绍了网络安全漏洞、加密技术及安全意识在信息保护中的重要性。本文旨在通过深入分析这些关键技术和策略,提升对信息安全整体性的理解,帮助读者在数字化时代更好地应对信息安全挑战。 ####
|
11月前
|
机器学习/深度学习 存储 自然语言处理
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
|
数据采集 移动开发 Python
六:《智慧的网络爬虫》— 正则表达式概述
【8月更文挑战第7天】本文介绍了正则表达式的基本概念、用途,如表单验证和爬虫,以及Python中re模块的使用,包括match(),match()函数、元字符、预定义字符集、重复匹配、位置匹配、非贪婪模式和re模块的常用方法如compile(),search(),findall(),split(),sub()等。
166 1
六:《智慧的网络爬虫》— 正则表达式概述
|
11月前
|
机器学习/深度学习 PyTorch API
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
|
数据采集 前端开发 开发者
《智慧的网络爬虫》— CSS概述
CSS主要作用是定义网页的样式。如网页元素的位置、大小、颜色等,也是前端及爬虫入门必须要学习的内容
103 7
《智慧的网络爬虫》—  CSS概述
|
数据采集 移动开发 前端开发
《智慧的网络爬虫》— HTML概述
网页是构成网站的基本元素,它是一个包含HTML标签的纯文本文件,通常是由图片;链接;视频;声音;文字等元素组成。通常我们所看到的网页,常以 .htm 或 .html 后缀结尾的文件,因此将其俗称为HTML文件。HTML;CSS;JS是学习爬虫的基础,是必须要了解的,此篇文章我讲述了HTML5对于爬虫所要必备的基础知识
130 1
《智慧的网络爬虫》—  HTML概述
|
存储 NoSQL MongoDB
八:《智慧的网络爬虫》— MongoDB概述
【8月更文挑战第14天】本篇文章简单介绍了MongoDB的下载和安装以;其基本的操作语法,并附上每个语法的代码示例,为后续的爬虫学习打下基础
146 0
八:《智慧的网络爬虫》— MongoDB概述

热门文章

最新文章