图数据集Zachary‘s karate club network详细介绍,包括其在NetworkX、PyG上的获取和应用方式

简介: 图数据集Zachary‘s karate club network详细介绍,包括其在NetworkX、PyG上的获取和应用方式

1. 原始数据


维基百科:Zachary’s karate club - Wikipedia


原始论文:An Information Flow Model for Conflict and Fission in Small Groups


数据集中只有一张图。

该图描述了一个空手道俱乐部会员的社交关系,以34名会员作为节点,如果两位会员在俱乐部之外仍保持社交关系,则在节点间增加一条边。


每个节点具有一个34维的特征向量,一共有78条边。

在收集数据的过程中,管理人员 John A 和 教练 Mr. Hi(化名)之间产生了冲突,会员们选择了站队,一半会员跟随 Mr. Hi 成立了新俱乐部,剩下一半会员找了新教练或退出了俱乐部。通过收集到的图数据,Zachary 进行了分类,除1名会员外都分类正确。


2. NetworkX中的数据


官方文档:networkx.generators.social.karate_club_graph


无向图。一共有34个节点,78条无向、无权、无特征的边。节点具有club属性,取值为 Mr. Hi 或 Officer。


数据获取代码:G = nx.karate_club_graph()


数据文件来源:UCINET IV Datasets


3. PyG中的数据


官方文档:torch_geometric.datasets.KarateClub

源代码:torch_geometric.datasets.karate — pytorch_geometric 1.7.0 documentation


数据文件来源于NetworkX的karate_club_graph,在其基础上做了修改。也是34个节点,78条无向边(edge_index宽为156)。

(官方文档中说是156条边(指无向图边×2的数目))


基于论文 Kipf, T., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. ArXiv, abs/1609.02907.(就是GCN那篇论文):

用 modularity-based clustering 给每个节点赋予一个四分类的标签(0 1 2 3)。在每一类中选一个节点作为该标签类的真实值节点,是train_mask为True对应索引的节点。(参考源代码:y是通过 community 的 community_louvain 计算出来的。然后将每一类的第一个节点作为真实值节点。)

每个节点有一个34维的特征(x),是独热编码的形式。(node ordering是随机的)


获取数据的方式:

from torch_geometric.datasets import KarateClub
dataset = KarateClub()
data = dataset[0]
print(data)


Data(edge_index=[2, 156], train_mask=[34], x=[34, 34], y=[34])


相关文章
|
存储 数据库
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
|
自然语言处理 安全 数据挖掘
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
文本分类任务是自然语言处理中最常见的任务,文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等各类日常或专业领域中。 文本分类任务可以根据标签类型分为**多分类(multi class)、多标签(multi label)、层次分类
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】
【YOLOV5-6.x讲解】DIY实验文件 models/experimental.py
【YOLOV5-6.x讲解】DIY实验文件 models/experimental.py
224 0
|
网络虚拟化
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
737 0
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
|
机器学习/深度学习 存储 自然语言处理
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
6.Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
|
机器学习/深度学习 存储 算法
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
4.图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
|
Shell 计算机视觉
2022亚太建模A题Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization思路分析
2022 亚太建模A题序列图像的特征提取与建模分析 模具流量的熔融和结晶Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization
2022亚太建模A题Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization思路分析
|
PyTorch 算法框架/工具
PyG (PyTorch Geometric) Dropbox系图数据集无法下载的解决方案(AMiner, DBLP, IMDB, LastFM)(持续更新ing...)
本文主要关注PyG官方提供的数据集中,因为数据下载源是Dropbox,所以不能直接下载的解决方案。
|
网络协议 Shell Linux
PyG的Planetoid无法直接下载Cora等数据集的3个解决方式
本文仅考虑DNS污染情况下无法用torch_geometric.Planetoid类下载Cora等数据集的情况。其他使用GitHub仓库下载数据的解决方式类似,在此文中不再赘述。
PyG的Planetoid无法直接下载Cora等数据集的3个解决方式
|
机器学习/深度学习 算法 搜索推荐
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)