本节书摘来自华章出版社《异构信息网络挖掘: 原理和方法(1)》一书中的第1章,第1.2节,作者[美]孙艺洲(Yizhou Sun)韩家炜(Jiawei Han),更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.2 为什么异构网络挖掘是一项新的挑战
已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名、社区探测、链接预测、影响分析等方法。然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘。这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息。通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息。例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络。然而,这样的投影会丢失作者在什么主题、哪些论文上进行了合作的重要信息。此外,基于异构信息网络中所蕴含的丰富的异构信息,许多强大、新颖的数据挖掘功能被设计出来,用于发现隐藏在实体间异构链接中的丰富信息。
为什么异构网络挖掘是一项新的挑战?显然,信息在异构节点和链接间的传播与其在同构节点和链接间的传播可能相当不一样。根据我们对异构信息网络的研究,特别是我们关于基于排名的聚类[66;69]、基于排名的分类[30;31]、基于元路径相似性搜索[65]、关系预测[62;63]、关系强度学习[61;67]和网络演化[68]这些研究,使得我们确信存在一组能够引导对异构信息网络进行系统分析的新原理。我们将它们总结如下。
1)异构链接间的信息传播。类似于大多数的网络分析研究,链接应被用于信息传播。然而,一个新的问题是
如何在异构类型的节点和链接间传播信息,特别地,在异构节点和链接间如何计算排名分数、相似性分数,聚类,以及充分利用类标签。无论我们如何制定新的、巧妙的度量、定义和方法,黄金原则是网络中的对象是相互依存的,且知识只能通过网络的整体信息来进行挖掘。
2)基于网络元结构探索的搜索和挖掘。不同于同构信息网络中把对象和链接要么看作是相同类型,要么看作是无类型的节点和链接,在我们的模型中,异构信息网络是半结构且有类型的,即与信息网络中的节点和链接相关联的类型集合的结构形成了网络模式。网络模式提供了信息网络的元结构。这种模式提供了对网络进行搜索和挖掘的指导,有助于分析、理解网络中对象和关系的语义。本书随后介绍的基于元路径的相似性搜索和挖掘能展现网络元结构探索的价值与能力。
3)用户引导的信息网络探索。在异构信息网络中,往往存在大量的、跨多个对象类型的语义关系,它们携带着并不明显的语义差异。给定用户的一个应用,可能关系或元路径的某个特定加权组合对其是最适合的。因此,对于基于用户引导或反馈的特定的搜索或挖掘任务来说,自动选择关系(或元路径)组合的恰当权重通常是很有必要的。基于用户引导或反馈的网络探索是一个有用的策略。