图数据集Zachary‘s karate club network详细介绍,包括其在NetworkX、PyG上的获取和应用方式

简介: 图数据集Zachary‘s karate club network详细介绍,包括其在NetworkX、PyG上的获取和应用方式

1. 原始数据


维基百科:Zachary’s karate club - Wikipedia


原始论文:An Information Flow Model for Conflict and Fission in Small Groups


数据集中只有一张图。

该图描述了一个空手道俱乐部会员的社交关系,以34名会员作为节点,如果两位会员在俱乐部之外仍保持社交关系,则在节点间增加一条边。


每个节点具有一个34维的特征向量,一共有78条边。

在收集数据的过程中,管理人员 John A 和 教练 Mr. Hi(化名)之间产生了冲突,会员们选择了站队,一半会员跟随 Mr. Hi 成立了新俱乐部,剩下一半会员找了新教练或退出了俱乐部。通过收集到的图数据,Zachary 进行了分类,除1名会员外都分类正确。


2. NetworkX中的数据


官方文档:networkx.generators.social.karate_club_graph


无向图。一共有34个节点,78条无向、无权、无特征的边。节点具有club属性,取值为 Mr. Hi 或 Officer。


数据获取代码:G = nx.karate_club_graph()


数据文件来源:UCINET IV Datasets


3. PyG中的数据


官方文档:torch_geometric.datasets.KarateClub

源代码:torch_geometric.datasets.karate — pytorch_geometric 1.7.0 documentation


数据文件来源于NetworkX的karate_club_graph,在其基础上做了修改。也是34个节点,78条无向边(edge_index宽为156)。

(官方文档中说是156条边(指无向图边×2的数目))


基于论文 Kipf, T., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. ArXiv, abs/1609.02907.(就是GCN那篇论文):

用 modularity-based clustering 给每个节点赋予一个四分类的标签(0 1 2 3)。在每一类中选一个节点作为该标签类的真实值节点,是train_mask为True对应索引的节点。(参考源代码:y是通过 community 的 community_louvain 计算出来的。然后将每一类的第一个节点作为真实值节点。)

每个节点有一个34维的特征(x),是独热编码的形式。(node ordering是随机的)


获取数据的方式:

from torch_geometric.datasets import KarateClub
dataset = KarateClub()
data = dataset[0]
print(data)


Data(edge_index=[2, 156], train_mask=[34], x=[34, 34], y=[34])


相关文章
《Visualizing the Latent Space of Vector Drawings from the Google QuickDraw Dataset with SketchRNN,PCA and t-SNE》电子版地址
Visualizing the Latent Space of Vector Drawings from the Google QuickDraw Dataset with SketchRNN,PCA and t-SNE
81 0
《Visualizing the Latent Space of Vector Drawings from the Google QuickDraw Dataset with SketchRNN,PCA and t-SNE》电子版地址
|
机器学习/深度学习 存储 自然语言处理
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
6.Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
|
机器学习/深度学习 存储 算法
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
4.图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
|
PyTorch 算法框架/工具
PyG (PyTorch Geometric) Dropbox系图数据集无法下载的解决方案(AMiner, DBLP, IMDB, LastFM)(持续更新ing...)
本文主要关注PyG官方提供的数据集中,因为数据下载源是Dropbox,所以不能直接下载的解决方案。
|
机器学习/深度学习 算法 搜索推荐
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
|
数据可视化 Python
sklearn之XGBModel:XGBModel之feature_importances_、plot_importance的简介、使用方法之详细攻略
sklearn之XGBModel:XGBModel之feature_importances_、plot_importance的简介、使用方法之详细攻略
|
数据采集 PyTorch 算法框架/工具
使用PyG (PyTorch Geometric) 实现同质图transductive链路预测任务
使用PyG (PyTorch Geometric) 实现同质图transductive链路预测任务
|
编解码 自动驾驶 定位技术
Dataset之ApolloScape :ApolloScape Scene Parsing数据集的简介、下载、使用方法之详细攻略
Dataset之ApolloScape :ApolloScape Scene Parsing数据集的简介、下载、使用方法之详细攻略
Dataset之ApolloScape :ApolloScape Scene Parsing数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 Python
DL之NN:基于(sklearn自带手写数字图片识别数据集)+自定义NN类(三层64→100→10)实现97.5%准确率
DL之NN:基于(sklearn自带手写数字图片识别数据集)+自定义NN类(三层64→100→10)实现97.5%准确率
DL之NN:基于(sklearn自带手写数字图片识别数据集)+自定义NN类(三层64→100→10)实现97.5%准确率
|
机器学习/深度学习 算法 数据挖掘
DL之GoogleNet:GoogleNet(InceptionV1)算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)
DL之GoogleNet:GoogleNet(InceptionV1)算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之GoogleNet:GoogleNet(InceptionV1)算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)