《异构信息网络挖掘：原理和方法(1)》一2.1 概述-阿里云开发者社区

《异构信息网络挖掘：原理和方法(1)》一2.1 概述

2017-05-02 2129

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《异构信息网络挖掘：原理和方法(1)》一书中的第2章，第2.1节，作者［美］孙艺洲（Yizhou Sun）韩家炜（Jiawei Han），更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.1 概述

为了更好地理解信息网络，许多分析技术被设计出来，不过它们大多是基于同构信息网络的，其中两个方法值得关注：排名和聚类。一方面，根据数学化展示对象特征的排名函数，排名评价信息网络中的对象。通过这类函数，两个定性或定量的对象可以按一种偏序进行比较。其中PageRank［10］和HITS［34］或许是信息网络中最著名的排名算法。另一方面，聚类按照特定的相似性评价将对象进行分组，因此相似的对象在同一聚类中，反之不相似的对象则在不同的聚类中。总之，作为两个基础性的分析工具，排名和聚类可以用来总览信息网络，因此被广泛地应用于各种应用。
聚类和排名通常被视为不相干的技术，它们独立地应用于信息网络分析。然而，若只使用它们中的一个来分析信息网络常常会导致不完整，甚至有时带有偏见的分析结果。例如，在不考虑信息网络中各个对象所属聚类的前提下对它们进行排名，容易导致得到无用的结果。例如，将数据库和计算机体系的刊物或作者混在一起排名，没有什么意义；另外，无差别地将大量对象（如数千作者）聚集到一个类中也是没有意义的。然而，将两个功能（聚类和排名）集成在一起，则能得到更易于理解的结果，如例21所示。
例21(带/不带聚类的排名)
考虑两组分别来自DB/DM（数据库与数据挖掘）和HW/CA（硬件与计算机体系）领域的刊物集合，每组包含10个刊物，如表21所示。根据在这些刊物的发文数量，我们从DBLP中选出每个领域的前100名作者。使用在221节中指定的权威排名函数，表22给出了仅使用排名的算法得到的top10结果。很明显，结果是相当缺乏说服力的（因为领域混合在一起）并且偏向于（即排名更高）HW/CA领域。此外，造成如此偏见的排名结果并不是因为我们选择的排名函数，而是由于两个领域间所固有的不可比性。

继续考虑同一数据集。如果我们聚集在DB/DM领域的刊物，并且对该聚类中的刊物和作者进行排名，可以得到表23所示的结果。

例21表明，好的聚类确实提升了排名结果的质量。而且，考虑对象的排名通常能更好地理解每个聚类。通过整合聚类和排名，有助于得到更易于理解的网络分析结果。
在这一章中，我们介绍两个基于排名的聚类算法RankClus和NetClus。它们分别适用于异构信息网络的两种特例，即双类型网络和星型网络。对这两种类型的网络，我们需要使用异构链接来计算排名和基于排名的聚类。

《异构信息网络挖掘：原理和方法(1)》一2.1 概述

2.1 概述

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《异构信息网络挖掘： 原理和方法(1)》一2.1 概述

2.1 概述

华章出版社

热门文章

最新文章

相关课程

相关电子书

《异构信息网络挖掘：原理和方法(1)》一2.1 概述