《中国人工智能学会通讯》——3.3 基于网络结构和节点信息的网络表 示方法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第3章,第3.3节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

3.3 基于网络结构和节点信息的网络表 示方法

除了节点之间的网络结构信息,网络节点本身往往存在丰富的信息。比如,在维基百科中的文章连接形成的信息网络中,每篇文章作为一个节点,节点包含了丰富的文本信息;在社交网络中(如图2 所示),每个用户节点包含用户产生的文本内容及用户属性(如性别、学校、地点、公司等)。

这部分介绍两种同时考虑网络结构和节点信息的模型:TADW 和 Multi-facetedRepresentations。Multi-faceted Representations模型考虑与节点 υ i 相关的信息为 I i ={text i , G i , R i ,M i }。其中 text i 表示节点 υ i 产生的文本内容,由单词序列组成 text i = {w 1 , w 2 , … };G i 表示与 υ i 相关的网络结构;R i 表示 υ i 与属性实体之间的关系集合(如图 2 中的 Like、LivesIn 和 StudyAt 等);M i 表示用户 υ i 拥有的属性实体集合(如图 2 中 StarTrek、Boston 和 Harvard 等)。TADW 模型则只考虑了网络结构信息和节点的文本信息 I i ={text i , G i }。
image

TADW 模型

文献 [19] 证明 DeepWalk 模型等价于矩阵分解并给出了待分解矩阵的具体形式。为了建模网络节点自身的文本特征,TADW(text-associatedDeepWalk) 采 用 了 文 献 [26] 中 诱 导 矩 阵 填 充(inductive matrix completion) 的方法。从文献 [25] 可知,使用 hierarchical softmax优化 Skip-gram 模型等价于分解矩阵 Y,Y 中的元素为image
其中 N(υ i , c j )、N(υ i ) 和 N(c j ) 分别表示 (υ i , c j )、节点 υ i 、上下文节点 c j 出现在训练语料中的个数。在DeepWalk 上下文节点 c j 出现在 υ i 的左边或者右边的上下文期望次数为image ,其中 s 是设定的窗口大小。文献 [19] 指出 DeepWalk 模型的优化过程本质上是在分解矩阵 Y,其中 Y 中每个元素为image
其中 e i 是一个 |V| 维的向量,在 i 维上为 1,其余为0。进而可知,e i A 是从节点 υ i 出发经过一步到达网络上各节点的概率分布,[e i (A+A 2 + … +A s)] j 是上下文节点 c j 出现在 υ i 一边窗口(左边或者右边)的期望次数。

在此基础上,TADW 采用了诱导矩阵填充方法,同时对文本特征和网络结构建模,求解的目标函数为image
其中 T 的每一列代表一个节点的文本特征(例如TF-IDF 值),在求解中保持不变。模型得到的 W和 HT 作为网络节点和上下文节点的低维表示串接起来,作为最终的网络表示。在进行矩阵分解之前首先要获得 Y,当 s 变大矩阵分解时间复杂度为O(|V|) 3 。一般情况下,t 越大模型效果越好,但计算越费时。在 TADW 中,t 取 2。

TADW 模型在 Cora、Citeseer、Wiki 三个标准数据集的表现超过了不用文本特征的 DeepWalk模型、只用文本特征的 PLSA [27] 模型,以及简单将两模型所得表示串接起来的方法。这说明 TADW 模型能够有效地融合文本信息获得更好的节点表示。

Multi-faceted Representations( 多方面表示 ) 模型

文献 [20] 关注社交网络中节点表示学习,除了节点的网络链接信息之外,还考虑真实存在的多源信息(见图 2),包括用户产生的文本内容和用户本身的属性背景等。多方面表示模型目标在于学习得到每个用户、每个属性实体和每个用户属性关系的低维向量表示。给定用户 υ i ,整个模型最大化 I i ={text i , G i , R i , M i } 的出现概率为image
其中 分别表示用户、用户属性实体关系和实体的潜在表示矩阵。模型假设词的表征已经提前学习得到,因此整个模型的参数为 image

image借 助 于 段 落 向 量 (paragraphvector) [15] 的思想建模,使用用户级别的表示和邻接词来预测文本中的目标词。公式如下(8)模型假设词级别的表示是预先学习好的,因此式 image
后一项被看作常数项。模型使用 AUC 损失函数(间隔排序损失 margin ranking loss)的方法对函数的第一部分进行优化,使得 (w, υ i ) 配对的分数大于随机产生的 (w', υ i ) 配对分数,其中 w' 是从词典 C (w)中负采样得到的词。

image定义为用户 υ i 的链接节点的似然,借助于 Skip-gram 模型的思想,使用用户节点来预测其链接的节点。最后,采用 AUC 损失函数的方法进行优化。

image目标在于预测用户 υ i 是否与属性实体 具有 r 的关系。首先使用双线性模型对每个元组 r(υ i , m j ) 建模打分,然后采用AUC 损失函数对模型进行优化。

多方面表示模型使用随机梯度下降的方法对整个模型进行优化。通过将不同信息建模到统一空间,模型学习得到的网络表示,不仅可以对用户之间的链接关系预测,同时也可以预测用户本身的属性(比如性别、工作、位置等)。

相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
64 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
3天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
47 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
18天前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
54 1
|
19天前
|
安全 网络协议 网络安全
【Azure 环境】从网络包中分析出TLS加密套件信息
An TLS 1.2 connection request was received from a remote client application, but non of the cipher suites supported by the client application are supported by the server. The connection request has failed. 从远程客户端应用程序收到 TLS 1.2 连接请求,但服务器不支持客户端应用程序支持的任何密码套件。连接请求失败。
|
25天前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
95 5
|
24天前
|
安全 算法 网络安全
量子计算与网络安全:保护数据的新方法
量子计算的崛起为网络安全带来了新的挑战和机遇。本文介绍了量子计算的基本原理,重点探讨了量子加密技术,如量子密钥分发(QKD)和量子签名,这些技术利用量子物理的特性,提供更高的安全性和可扩展性。未来,量子加密将在金融、政府通信等领域发挥重要作用,但仍需克服量子硬件不稳定性和算法优化等挑战。
|
28天前
|
SQL 安全 算法
网络安全的隐形盾牌:漏洞防御与信息加密的艺术
【10月更文挑战第36天】在数字世界的海洋中,网络安全犹如一艘船的保护罩,守护着我们的隐私和数据安全。本文将揭开网络安全的神秘面纱,从常见的网络漏洞到先进的加密技术,再到培养必要的安全意识,我们将一步步构建起防御的堡垒。文章不仅分享技术细节,还强调了在个人和组织层面采取积极措施的重要性。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
19 0
|
10天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
17 0
|
2天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建