《中国人工智能学会通讯》——3.3 基于网络结构和节点信息的网络表 示方法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第3章,第3.3节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

3.3 基于网络结构和节点信息的网络表 示方法

除了节点之间的网络结构信息,网络节点本身往往存在丰富的信息。比如,在维基百科中的文章连接形成的信息网络中,每篇文章作为一个节点,节点包含了丰富的文本信息;在社交网络中(如图2 所示),每个用户节点包含用户产生的文本内容及用户属性(如性别、学校、地点、公司等)。

这部分介绍两种同时考虑网络结构和节点信息的模型:TADW 和 Multi-facetedRepresentations。Multi-faceted Representations模型考虑与节点 υ i 相关的信息为 I i ={text i , G i , R i ,M i }。其中 text i 表示节点 υ i 产生的文本内容,由单词序列组成 text i = {w 1 , w 2 , … };G i 表示与 υ i 相关的网络结构;R i 表示 υ i 与属性实体之间的关系集合(如图 2 中的 Like、LivesIn 和 StudyAt 等);M i 表示用户 υ i 拥有的属性实体集合(如图 2 中 StarTrek、Boston 和 Harvard 等)。TADW 模型则只考虑了网络结构信息和节点的文本信息 I i ={text i , G i }。
image

TADW 模型

文献 [19] 证明 DeepWalk 模型等价于矩阵分解并给出了待分解矩阵的具体形式。为了建模网络节点自身的文本特征,TADW(text-associatedDeepWalk) 采 用 了 文 献 [26] 中 诱 导 矩 阵 填 充(inductive matrix completion) 的方法。从文献 [25] 可知,使用 hierarchical softmax优化 Skip-gram 模型等价于分解矩阵 Y,Y 中的元素为image
其中 N(υ i , c j )、N(υ i ) 和 N(c j ) 分别表示 (υ i , c j )、节点 υ i 、上下文节点 c j 出现在训练语料中的个数。在DeepWalk 上下文节点 c j 出现在 υ i 的左边或者右边的上下文期望次数为image ,其中 s 是设定的窗口大小。文献 [19] 指出 DeepWalk 模型的优化过程本质上是在分解矩阵 Y,其中 Y 中每个元素为image
其中 e i 是一个 |V| 维的向量,在 i 维上为 1,其余为0。进而可知,e i A 是从节点 υ i 出发经过一步到达网络上各节点的概率分布,[e i (A+A 2 + … +A s)] j 是上下文节点 c j 出现在 υ i 一边窗口(左边或者右边)的期望次数。

在此基础上,TADW 采用了诱导矩阵填充方法,同时对文本特征和网络结构建模,求解的目标函数为image
其中 T 的每一列代表一个节点的文本特征(例如TF-IDF 值),在求解中保持不变。模型得到的 W和 HT 作为网络节点和上下文节点的低维表示串接起来,作为最终的网络表示。在进行矩阵分解之前首先要获得 Y,当 s 变大矩阵分解时间复杂度为O(|V|) 3 。一般情况下,t 越大模型效果越好,但计算越费时。在 TADW 中,t 取 2。

TADW 模型在 Cora、Citeseer、Wiki 三个标准数据集的表现超过了不用文本特征的 DeepWalk模型、只用文本特征的 PLSA [27] 模型,以及简单将两模型所得表示串接起来的方法。这说明 TADW 模型能够有效地融合文本信息获得更好的节点表示。

Multi-faceted Representations( 多方面表示 ) 模型

文献 [20] 关注社交网络中节点表示学习,除了节点的网络链接信息之外,还考虑真实存在的多源信息(见图 2),包括用户产生的文本内容和用户本身的属性背景等。多方面表示模型目标在于学习得到每个用户、每个属性实体和每个用户属性关系的低维向量表示。给定用户 υ i ,整个模型最大化 I i ={text i , G i , R i , M i } 的出现概率为image
其中 分别表示用户、用户属性实体关系和实体的潜在表示矩阵。模型假设词的表征已经提前学习得到,因此整个模型的参数为 image

image借 助 于 段 落 向 量 (paragraphvector) [15] 的思想建模,使用用户级别的表示和邻接词来预测文本中的目标词。公式如下(8)模型假设词级别的表示是预先学习好的,因此式 image
后一项被看作常数项。模型使用 AUC 损失函数(间隔排序损失 margin ranking loss)的方法对函数的第一部分进行优化,使得 (w, υ i ) 配对的分数大于随机产生的 (w', υ i ) 配对分数,其中 w' 是从词典 C (w)中负采样得到的词。

image定义为用户 υ i 的链接节点的似然,借助于 Skip-gram 模型的思想,使用用户节点来预测其链接的节点。最后,采用 AUC 损失函数的方法进行优化。

image目标在于预测用户 υ i 是否与属性实体 具有 r 的关系。首先使用双线性模型对每个元组 r(υ i , m j ) 建模打分,然后采用AUC 损失函数对模型进行优化。

多方面表示模型使用随机梯度下降的方法对整个模型进行优化。通过将不同信息建模到统一空间,模型学习得到的网络表示,不仅可以对用户之间的链接关系预测,同时也可以预测用户本身的属性(比如性别、工作、位置等)。

相关文章
|
2月前
|
人工智能 搜索推荐
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
|
11天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
143 55
|
2月前
|
人工智能
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
|
16天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
61 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
8天前
|
域名解析 缓存 网络协议
优化Lua-cURL:减少网络请求延迟的实用方法
优化Lua-cURL:减少网络请求延迟的实用方法
|
29天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
52 8
|
1月前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
93 4
|
1月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
31 2
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
117 1
|
1月前
|
安全 算法 网络安全
量子计算与网络安全:保护数据的新方法
量子计算的崛起为网络安全带来了新的挑战和机遇。本文介绍了量子计算的基本原理,重点探讨了量子加密技术,如量子密钥分发(QKD)和量子签名,这些技术利用量子物理的特性,提供更高的安全性和可扩展性。未来,量子加密将在金融、政府通信等领域发挥重要作用,但仍需克服量子硬件不稳定性和算法优化等挑战。

热门文章

最新文章