《中国人工智能学会通讯》——3.8 主要方法概述

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第3章,第3.8节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

3.8 主要方法概述

跨网络链接预测方法——跨网络匹配

从更广义的角度来说,跨网络链接预测不仅可以用于上述的发现并集成同一用户在不同社交网络的不同账号[5] ,还能用于异构数据源间的实体匹配 [4]以及跨网络合作关系推荐[6]等。这里主要的挑战是跨网络之间的链接往往非常稀疏;同时由于两个网络可能高度异构,使网络间节点共性少、关联度低。

用户名匹配:最简单的方法是直接使用用户名进行匹配,或者计算不同网络之间用户名的相似度。Zafarani 等[7-8]最早提出使用用户名前缀、后缀进行不同网络用户账号匹配的问题。他们定义了一系列复杂特征,例如个人兴趣、命名模式用于描述用户账号的选择习惯。最后跨网络之间的匹配通过用户账号名字的相似度得到。Liu 等在文献 [9-10] 中进一步提出了基于机器学习的跨网络用户链接预测方法。一般来说这类研究问题都存在标注数据欠缺的问题,所以很难直接使用传统的有监督机器学习方法。Liu 等非常巧妙地利用了人名的唯一性,即将特殊的用户名(用户名唯一性度量函数)之间的映射认为是弱监督信息,训练两个网络不同特性的相关度;此外,他们还将用户属性、用户生成的文档,以及用户在不同网络中的活动集成到一个学习框架中,用于提高链接预测的精度。

融合网络拓扑结构的匹配:另一种思路则是进一步考虑网络中的拓扑结构。Kong 等[5]提出anchorlink 预测的概念,他们利用结构化的特征帮助跨网络之间的 1:1 映射。Cui 等[11] 则是直接集成了用户属性相似度和网络结构相似度,通过两者的结合来提高网络用户链接预测的精度。Tan 等[12]的方法也是集成用户属性和网络结构,但不同的是他们的方法没有直接对两者进行相加,而是将问题形式地定义在流型学习框架中,将两个网络中的用户分别映射于一个公共的低维空间,在低维空间上再计算用户的相似度,从而实现链接预测。

全局一致性的跨网络匹配:然而上述方法都没有考虑跨网络链接预测的全局性,即网络个数越来越多,网络结构越来越复杂,如果只是单纯考虑局部匹配或者网络之间的拓扑结构匹配,必然忽略跨多网络链接的全局特性。清华大学 Zhang 等[1]提出 COSNET 模型,同时考虑了多个网络的局部和全局一致性。该模型巧妙地将网络链接预测问题描述为马尔科夫场中的能量最小化问题,通过能量方程进行全局最优化,将局部和全局一致性进行了统一描述,实现了统一的优化模型,同时考虑用户配对相似度、网络关系以及多网络匹配的一致性。该方法被成功应用于学术网络挖掘系统 AMiner,用于自动集成研究者的 Linkedin 及 Videolectures 账户信息。图 2 给出 COSNET 模型实现跨网络链接预测的基本流程。主要包括四个阶段,(a) 首先给定 2个或者多个输入网络;(b) 模型自动生成一个候选映射图,基本思路是把所有可能的链接(即用户和用户之间的匹配)定义为候选映射图中的一个点,候选映射图中的边表示两个链接之间的关联关系(即可以利用拓扑结构互相影响链接预测的结果);(c) 由于 (b) 中生成的候选映射图可能非常大,尤其是在输入网络比较大的情况下,因此对候选映射图进行剪枝,剪枝的基本方法是利用领域知识或者一些基本的统计特性;(d) 最后基于得到剪枝后的候选映射图生成对应的马尔科夫场模型并建立相应的能量方程。对能量方程进行求解则可以学习链接预测方程,实现跨网络链接预测。具体求解细节参考文献 [9]。
image

我 们 将 该 模 型 用 于 AMiner 系 统 自 动 实现 AMiner 系 统 和 LinkedIn、 谷 歌 学 术 以 及VideoLectures 之间的链接预测。AMiner 系统是一个基于作者以及作者之间合作关系网络的开放学术搜索系统,LinkedIn 是全球最大职业网络,谷歌学术是全球最大的学术数据网络,VideoLectures 是一个学术视频网络。实现这几个网络之间的链接,可以更好地整合学术资源,提供更加精准的学术搜索和学术推荐服务。目前 AMiner 系统已经自动实现 237 842 个 AMiner 作者和 LinkedIn 职业人之间的链接(准确率:F 1 值 86%),以及 8 932 个AMiner 作者和 VideoLectures 讲者之间的链接(准确率:F 1 值 79%)。图 3 给出了一个基于链接结果的数据集成结果。

基于话题的网络匹配:其他的网络匹配方法还包括基于话题的网络匹配方法,例如:为解决实体匹配问题,Yang 等[4]提出一个概率图模型。模型的核心思想是,将隐话题提取和实体匹配集成在一个统一的框架中。区别于传统的单一数据源实体匹配,该问题存在异构数据源的实体描述用词差异性大、实体关联度低等挑战。为了处理实体描述差异性大的问题,该方法使用跨域采样的学习算法,不仅能对实体进行匹配,还能通过跨领域话题对匹配结果进行解释。作者通过两个真实应用对模型进行验证:专利 - 产品匹配,以及中英文 Wiki 页面匹配。实验表明,对比传统方法,该模型在两个应用中分别可以提高 19.8% 及 7.1% 的实体匹配准确率。

image

图 3 AMiner 系统中的跨网络链接结果。以数据挖掘专家 Jiawei Han 教授为例,系统实现 Jiawei Han教授在谷歌学术、LinkedIn、专利和 VideoLecture上不同账号的自动链接和数据集成

跨网络链接预测方法——未知网络链接预测

另一个跨网络链接预测方法是给定两个网络,但仅已知其中一个网络内部的链接和两个网络之间的关联链接,预测另一个网络内部的未知链接。这个问题有很多相关的应用,除了前面提到的移动通信网络的例子,通信公司可以通过本公司用户的通信关系和本公司用户与竞争对手公司用户的链接关系,预测出竞争对手公司内部的用户链接关系,从而在商业竞争中获取商机。另一个例子则是疾病 -基因网络:通常基因之间的相互链接关系的试验代价是比较大的,而相比之下,疾病间的链接关系以及疾病与基因之间的部分链接关系较容易获得。因此这里的问题是如何利用疾病之间的链接,以及疾病与基因之间的链接,预测基因之间的链接关系。图 4 给出了基于疾病 - 基因网络的未知网络链接预测示例。这个问题的关键挑战是在极端情况下,我们可能对另一个未知网络的信息一无所知;另一个挑战则是不同网络之间的用户的关系类型存在异构的特性。

为解决对偶网络的链接预测问题,Dong 等提出一个两阶段的耦合网络链接预测框架 CoulpedLP [3] ,其中第一阶段构建隐式目标网络,第二阶段通过概率因子图模型利用耦合网络中的元路径关系对目标网络结构进行预测。最后能得到 70% 左右的预测精度(基于AUROC指标的评测)。技术细节参见文献 [3]。

image

目录
打赏
0
0
0
0
325
分享
相关文章
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
155 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
巧妙构建歌词结构:写歌词的技巧和方法之关键,妙笔生词AI智能写歌词软件
在音乐世界里,歌词是灵魂的载体,构建其结构至关重要。优秀的歌词需有引人入胜的开头、条理清晰且富变化的主体,以及深刻难忘的结尾。《妙笔生词智能写歌词软件》提供多种功能,帮助创作者克服结构难题,激发灵感,助你写出打动人心的歌词,开启音乐创作的新篇章。
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
360 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
153 29
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
新手指南:人工智能poe ai 怎么用?国内使用poe记住这个方法就够了!
由于国内网络限制,许多用户在尝试访问Poe AI时面临障碍。幸运的是,现在国内用户也能轻松畅玩Poe AI,告别繁琐的设置,直接开启AI创作之旅!🎉
456 13
已解决:Poe AI国内能用吗?国内用户如何使用Poe AI?亲测有效的方法来了!
人工智能正在重塑我们的世界,而Poe AI作为AI聊天机器人平台的佼者,更是引领着这场变革。它集成了众多顶尖AI模型,如OpenAI的GPT系列、Anthropic的Claude系列以及Google的PaLM等,为用户提供了一个探索AI无限可能的开放平台
217 12
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
364 4
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
81 2

热门文章

最新文章