【Pytorch神经网络理论篇】 27 图神经网络DGL库:简介+安装+卸载+数据集+PYG库+NetWorkx库

简介: DGL库是由纽约大学和亚马逊联手推出的图神经网络框架,支持对异构图的处理,开源相关异构图神经网络的代码,在GCMC、RGCN等业内知名的模型实现上也取得了很好的效果。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~



815902569f6a467a99304f9ac1482386.png


DGL库是由纽约大学和亚马逊联手推出的图神经网络框架,支持对异构图的处理,开源相关异构图神经网络的代码,在GCMC、RGCN等业内知名的模型实现上也取得了很好的效果。


77ef858fe4774802b7aa14acb6d3a80a.png


1 DGL库


1.1 DGL库的实现与性能


实现GNN并不容易,因为它需要在不规则数据上实现较高的GPU吞吐量。


1.1.1 DGL库简介


DGL库的逻辑层使用了顶点域的处理方式,使代码更容易理解。同时,又在底层的内存和运行效率方面做了大量的工作,使得框架可以发挥出更好的性能。


1.1.2 DGL库特点


GCMC:DGL的内存优化支持在一个GPU上对MovieLens10M数据集进行训练(原实现需要从CPU中动态加载数据),从而将原本需要24小时的训练时间缩短到1个多小时。


RGCN:使用全新的异构图接口重新实现了RGCN。减少了内存开销。


HAN:提供的灵活接口可以将一个异构图通过元路径转变成同构图。


Metapath2vec:新的元路径采样实现比原实现快2倍。


1.1.3 分子化学的模型库DGL-Chem


该分子库提供包括分子性质预测和分子结构生成等预训练模型,以及训练知识图谱嵌入专用包DGL-KE。其中DGL-KE的性能更是出色。


在单GPU上,DGL-KE能在7分钟内使用经典的TransE模型训练出FB15K的图嵌入。而GraphVite(v0.1.0)在4个GPU上运算需要14分钟。


DGL-KE的首个版本发布了TransE、CompEx和Distmut模型,支持CPU训练、GPU训练、CPU和GPU混合训练,以及单机多进程训练。


1.2 安装DGL库


1.2.1 查看本地CUDA版本


CMD中输入


nvcc --version


1.2.2 查看版本


CUDA对应的DGL版本查询(64位)

https://conda.anaconda.org/dglteam/linux-64


1.2.3 安装版本


conda install -c dglteam dgl-cuda11.3


8fdb88e448ab498c969c5caa10a6e7c2.png


1.2.4  卸载DGL


若已经安装了不需要的DGL版本,比如0.7.1想替换为0.4.3版本,则要删除现有版本:


默认删除当前DGL:conda uninstall -c dglteam dgl-cuda10.2


(cuda10.2可根据自己的环境调整)


指定删除版本:conda uninstall -c dglteam dgl-cuda10.2==0.5.0

(cuda10.2==0.5.0可根据自己的环境调整,使用 conda list 可以查看使用的当前版本)


1.3 DGL库中的数据集


1.3.1  Sst(Stanford sentiment treebank,斯坦福情感树库)


每个样本都是—个树结构的句子,叶顶点表示单词;每个顶点还具有情感注释,共分为5类(非常消极、消极、中立、积极、非常积极)


1.3.2 KarateCub


数据集中只有一个图,图中的顶点描述社交网络中的用户是否是一家空手道俱乐部中的成员。


1.3.3 CationGraph


顶点表示作者,边表示引用关系。


1.3.4 CORA


顶点表示作者,边表示引用关系。


1.3.5 CORAFUll


CORA数据集的扩展,顶点表示论文,边表示论文间的引用关系。


1.3.6 AmazonCoBuy


顶点表示商品,边表示经常一起购买的两种商,。顶点特征表示产品的评论,顶点的类别标签表示产品的类别。


3.7 Coauthor


顶点表示作者,边表示共同撰写过论文的关系。顶点特征表示作者论文中的关键词,顶点类别标签表示作者的研究领域。


3.8 MiniGCDalaset(即mini graph classification dataset,小型图分类数据集)


包含8种不同类型的图形,包括循环图、星形图、车轮图、棒棒糖图、超立方体图、网格图、集团图和圆形梯形图。


3.9 TUDataset


图形分类中的图形内核数据集。


3.10 GINDataset(即graphLsomorphism network dataset,图同构网络数据集)


图内核数据集的紧凑子集。数据集包含流行的图形内核数据集的紧凑格式,包括4个生物信息学数据集(MUTAG、NCH、PROTEINS、PTC)和5个社交网络数据集(COLAB、IMDBBNARY、MDBMULT、REDDITBINARY,REDDITMULT5K)。


3.11 PPIDataset(即protein-protein interaction dataset,蛋白质-蛋白质相互作用数据集)


数据集包含24个图,每个图的平均顶点数为2372,每个顶点具有50个要素和121个标签。


3.12 QM7b


由7211个分子组成,所有的分子可以回归到14个分类目标。顶点表示原子,边表示键。


1.4 DGL库中数据集的加载


在使用时,可以通过dg.data库中的数据集类直接进行实例化。


实例化的参数要根据每个数据集类的构造函数的定义进行配置。


代码如下:


# 该代码的作用是创建并加载一个同构图数据集。该代码运行后,会自动从网络上下载指定的数据集
# 并解压缩,然后载入到内存,并返回数据集对象dataset。该数据集类与PyTorch的Dataset类兼容。
dataset=GINDataset('MUTAG',self-loop=True) #数据集为MUTAG,使用自环图


1.4.1 数据集加载的Tip


dgldata库中的数据集类规划得并不是太好,有的类直接裸露在数据下面,有的类则被额外封装了一层。


例如,CoraDataset类就被封装在citation_graph.py文件中,载入时需要编写如下代码:


from dgl.data import citation-graph
data = citation_graph.corapataset()
该代码在执行时会读取指定的数据集,并生成邻接矩阵,然后调用NetWorkx模块根据该邻接矩阵生成图以及训练数据集、测试数据集。


因此,在使用DGL的数据集时,还需要在dgl/data路径下单独查找,以库中实际的代码为准。


1.5 DGL库中的图(DGLGraph)


DGLGraph类封装一个特有的图结构,可以理解为DGL库的核心,DGL库中的大部分图神经网络是基于DGLGraph类实现的。


1.6 DGL库中的内联函数


DGL库提供了大量的内联(buit-in)函数,这些函数主要用于对边和顶点进行运算处理,它们的效率要比普通的图处理函数高很多。


DGL库中的内联函数都放在dgl.function模块下。在使用时,要配合DGLGraph图的消息传播机制进行运算。


消息传播机制属于DGL库的底层功能,常会在构建图神经网络模型中使用。


如果只使用DGL库中封装好的图神经网络模型,那么无须深入了解。


2 PYG库


PyG库是基于PyTorch构建的几何深度学习扩展库,可以利用专门的CUDA内核实现高性能。


在简单的消息传递APl之后,它将大多数近期提出的卷积层和池化层捆绑成一个统一的框架,支持CPU和GPU计算,并遵循不变的数据流范式,这种范式可以随着时间的推移动态改变图结构。


3 NetWorkx库


NetWorkk是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便地执行分析复杂网络数据、仿真建模等任务。


利用NetWorkx可以以标准化和非标准化数据格式存储网络,生成多种随机网络和经典网络,分析网络结构,建立网络模型,设计新的网络算法,进行网络绘制等。


3.1 NetWorkx库的安装和使用


由于NetWorkx库默认集成在Anaconda软件中,因此,如果已经安装了Anaconda,那么可以直接使用NetWorkx库。


3.2 查询NetWorkx库的版本


import networkx
print(networkx.__version__)
# 2.7.1


3.3 NetWorkx库支持的图结构


  1. Graph:无多重边无向图。
  2. DiGraph:无多重边有向图。
  3. MultiGraph:有多重边无向图。
  4. MuliDiGraph:有多重边有向图。


3.4 NetWorkx库中的图数据对象


NetWorkx库中的图数据对象可以通过nx.generate_graphml接口转化成graphm/文件格式的字符串。该字符串是以生成器形式存储的,每一个子图为生成器中的一个元素。


import networkx as nx
G = nx.path_graph(4)
print(list(nx.generate_graphml(G)))


在该代码执行后,会输出graphml文件格式的图数据对象,具体如下:


['<graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">', '  <graph edgedefault="undirected">', '    <node id="0" />', '    <node id="1" />', '    <node id="2" />', '    <node id="3" />', '    <edge source="0" target="1" />', '    <edge source="1" target="2" />', '    <edge source="2" target="3" />', '  </graph>', '</graphml>']


通过graphml文件格式的描述,实现图数据的文本形式显示,可以通过直接修改graphml文件的内容完成对图数据的维护,比使用接口函数的方式更直接,也更灵活。


3.4.1 graphml文件的持久化


使用nx_writegraphm接口可输出内存中的图对象,待编辑好之后,使用nx.read_graphml接口将文件加载到内存中。


3.4.2 graphml文件的打开方式


graphml的文件使用的是xml格式,可以用yEd Graph Edtor软件打开

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
16天前
|
机器学习/深度学习 数据可视化 算法
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
神经常微分方程(Neural ODEs)是深度学习领域的创新模型,将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法,涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性,适用于生成模型、时间序列分析等领域。
163 77
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
|
23天前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现传统CTR模型WideDeep网络
本文介绍了如何在昇腾平台上使用PyTorch实现经典的WideDeep网络模型,以处理推荐系统中的点击率(CTR)预测问题。
192 66
|
7天前
|
监控 Linux PHP
【02】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-2月12日优雅草简化Centos stream8安装zabbix7教程-本搭建教程非docker搭建教程-优雅草solution
【02】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-2月12日优雅草简化Centos stream8安装zabbix7教程-本搭建教程非docker搭建教程-优雅草solution
57 20
|
1月前
|
机器学习/深度学习 算法 PyTorch
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
224 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
|
2月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本文详细介绍了如何在昇腾平台上使用PyTorch实现GraphSage算法,在CiteSeer数据集上进行图神经网络的分类训练。内容涵盖GraphSage的创新点、算法原理、网络架构及实战代码分析,通过采样和聚合方法高效处理大规模图数据。实验结果显示,模型在CiteSeer数据集上的分类准确率达到66.5%。
|
3月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
81 7
|
5月前
|
JavaScript 前端开发 API
网络请求库 – axios库
网络请求库 – axios库
236 60
|
5月前
|
数据采集 JSON API
🎓Python网络请求新手指南:requests库带你轻松玩转HTTP协议
本文介绍Python网络编程中不可或缺的HTTP协议基础,并以requests库为例,详细讲解如何执行GET与POST请求、处理响应及自定义请求头等操作。通过简洁易懂的代码示例,帮助初学者快速掌握网络爬虫与API开发所需的关键技能。无论是安装配置还是会话管理,requests库均提供了强大而直观的接口,助力读者轻松应对各类网络编程任务。
163 3
|
5月前
|
机器学习/深度学习 JSON API
HTTP协议实战演练场:Python requests库助你成为网络数据抓取大师
在数据驱动的时代,网络数据抓取对于数据分析、机器学习等至关重要。HTTP协议作为互联网通信的基石,其重要性不言而喻。Python的`requests`库凭借简洁的API和强大的功能,成为网络数据抓取的利器。本文将通过实战演练展示如何使用`requests`库进行数据抓取,包括发送GET/POST请求、处理JSON响应及添加自定义请求头等。首先,请确保已安装`requests`库,可通过`pip install requests`进行安装。接下来,我们将逐一介绍如何利用`requests`库探索网络世界,助你成为数据抓取大师。在实践过程中,务必遵守相关法律法规和网站使用条款,做到技术与道德并重。
106 2

热门文章

最新文章