开发者社区> 华章计算机> 正文

《异构信息网络挖掘: 原理和方法》—— 第1章 引言

简介: 我们生活在一个相互连接的世界中。大量的数据或信息化对象、个体、群组或其组成部件之间相互联系、相互影响,形成了数量众多、规模庞大、相互连接的复杂网络。不失一般性,本书称这种相互连接的网络为信息网络(information network)。
+关注继续查看

本节书摘来自华章出版社《异构信息网络挖掘: 原理和方法法》一 书中的第1章,作者( 美)孙艺洲(Yizhou Sun),(美)韩家炜(Jiawei Han),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章 引言

    我们生活在一个相互连接的世界中。大量的数据或信息化对象、个体、群组或其组成部件之间相互联系、相互影响,形成了数量众多、规模庞大、相互连接的复杂网络。不失一般性,本书称这种相互连接的网络为信息网络(information network)。信息网络的实例包括社交网络、万维网、研究成果发表网络[22]、生物网络[55]、交通网络[32]、公共健康系统、电网,等等。显然,信息网络随处可见,是现代信息基础设施的重要组成部分。如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网)的分析,已经受到计算机科学、社会科学、物理、经济学、生物学等领域研究者的广泛关注,并在各个学科中获得了令人激动的发现和成功的应用。

    当前大多数关于网络科学、社交和信息网络的研究,通常假设网络是同构的(homogeneous),即网络中的节点都是相同实体类型的对象(如人),并且链接都是相同关联类型的关系(如朋友关系)。这些研究获得了许多有趣的结果以及众多有重要影响的应用,例如知名的PageRank算法[10]和社区探测方法等。然而,实际中大多数网络是异构的(heterogeneous),即网络中的节点和关系并不是相同类型的。例如,在一个医疗保健网络中,节点可以是病人、医生、检查、疾病、药物、医院、治疗,等等。如果将所有节点视为同一类型可能会丢失重要的语义信息。另一方面,如果将每一个节点都作为一个单独的类型同样会遗失有价值的信息。相比于医生或者疾病这些类型,我们可以把所有病人看成同一个类型。因此,类型化、半结构化的异构网络建模可以捕获真实世界中最根本的语义信息。

    类型化的、半结构化的异构信息网络无所不在。例如,Facebook网络由用户以及照片、消息、公司、电影等多种类型对象组成。除了人与人之间的朋友关系,还存在着其他类型的关系,如个人与照片之间的标记关系、个人与电影之间的喜好关系、个人与消息之间的发布关系、消息与消息之间的回复关系等。一个大学网络也可由不同类型的对象(如学生、教授、课程、院系),以及这些对象之间的交互(如教学、课程注册或所属院系等关系)构成。从社交媒体到各种科学性、工程性或者医疗性的系统,再到在线电子商务系统,这样的例子比比皆是。因此,异构信息网络是对真实世界各领域中不同类型的网络实体间相互关系的强大且丰富的表达。

    本书中,通过借助网络中节点与链接的类型的语义,我们探讨了异构信息网络挖掘的原理和方法,并且提出了能够探究这些丰富语义并解决现实世界问题的模型与算法。通常,异构信息网络包含着同构网络中的语义结构。异构网络中的链接代表网络中不同类型对象之间的相互关系,一般包含着这些对象之间的相似性或者影响力,这些都很难用传统的特征来表达。信息在网络中通过不同类型的关系(即异构链接)在不同的对象之间传播。这些信息具有不同的语义,并且确定了连接对象间影响力的强度。这些原理为处理异构信息网络中各种挖掘任务(包括排名、聚类、分类、相似性搜索、关系预测和关系强度学习等)的方法学研究奠定了基础。我们将分章节介绍这些挖掘任务和与它们相关的新的原理及方法。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
通用网络信息采集器(爬虫)设计方案
一、引言   Heritrix3.X与1.X版本变化比较大,基于此带来的Extractor定向扩展方法也受到影响,自定义扩展方面因为接口的变化受阻,从而萌生了通用网络信息采集器设计的想法。一直没有一个好的网络信息采集器,必须能够适应下载对象的多样性和下载内容的复杂性。
1071 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
23615 0
密码学技术在网络信息安全中的应用与发展探析
伴随我国网络技术的大众化和社会化普及,计算机中的网络安全已经成为了能够影响网络效能的重点性问题,并且这代表在一定程度上为计算机网络的安全问题提出了更深层次的要求。网络中的安全信息系统应当充分保证在网络中传输的实际信息完整性与保密性,并且当前我国的信息发展过程中能够保证通信与网络安全的相关技术有很多种类型,其中对网络信息数据的加密技术就是能够保证网络信息安全的最核心技术措施,并且对网络信息的加密操作同时也是现代密码学的重要组成部分。在当前数据加密技术的发展过程中,存在两种加密体制,分别是传统密钥加密体制和公开密钥加密体制,其中后者对数据加密与数据签名两个发展方面应用广泛。
326 0
《工业控制网络安全技术与实践》一1.1.3 工业控制网络与传统IT信息网络
本文讲的是工业控制网络安全技术与实践一1.1.3 工业控制网络与传统IT信息网络,本节书摘来华章计算机《工业控制网络安全技术与实践》一书中的第1章,第1.1.3节,姚 羽 祝烈煌 武传坤 编著 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1239 0
《异构信息网络挖掘: 原理和方法(1)》一导读
当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。
881 0
10057
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载