备案控制台

开发者社区人工智能文章正文

Re10：读论文 Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous gr

2022-10-22 426

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Re10：读论文 Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous gr

1. Background

近几年异质图GNN（Heterogeneous graph neural networks (HGNNs)）颇受关注，但是由于每个工作的数据预处理方式和评估设置都不同，因此很难对新模型具体的进步程度做全面理解。

本文使用12个异质图GNN模型的官方代码、数据集、实验设置和超参，证明了它们毫无进展（也不完全，只能说基本没有）。

同质图GNN模型（如GCN和GAT）因为不合适的实验设置而被低估了，GAT调好了不逊于甚至优于HGNNs。

此外本文还构建了异质图benchmark HGB，包含11个数据集，3个任务（节点分类、链路预测、knowledge-aware recommendation）。HGB统一了异质图数据划分、特征工程和模型评估的过程。

最后本文提出了简单但有效的异质图GNN baseline Simple-HGN。

本文得出的结论：

同质图GNN其实很强，原始GAT调一调就能超过大多数HGNNs。
以前的一些工作有实验设置不合适或数据泄露的问题，导致报告指标虚高。
metapaths在大多数数据集中是没必要的。
HGNNs还有很大的进步空间。

Preliminaries

GCN：

GAT：

meta-path：细节略，以后准备专门写博文讲这是个啥玩意

这个meta-path它解答了一个我在之前DEAL2和LeSICiN3笔记博文里提出的一个困惑，那就是，原来起点和终点不用是同一类节点啊！

（MAGNN4里面也有）

meta-path neighbor graph：以meta-path的起点到终点为边构建的图

2. 挨个介绍并喷近几年提出的异质图GNN模型

HGNNs的主要问题在于与同质图GNN的对比不公平，其他问题还有数据泄露、在测试集上调参、空间和时间消耗代价与效果提升不成正比。

2.1 节点分类

2.1.1 HAN5（2019 WWW）

需要人工选择meta-paths，然后用2层attention网络做聚合（meta-path邻居节点，meta-path）。

实验不公平：GCN和GAT只使用了一个meta-path neighbor graph作为输入。应该忽略类型，直接输入全图。

2.1.2 GTN6（2019 NeurIPS）

自动学习有价值的meta-paths。直觉是meta-path neighbor graph可以通过乘几个子图邻接矩阵来得到（还没看原论文，没搞懂这句话啥意思！）

因此，GTN利用soft sub-graph selection和矩阵乘法生成meta-path neighbor graphs，然后用GCN进行编码。

GTN的重要缺点是时间和空间代价太大，而且没什么提升。

2.1.3 RSHN7（2019 ICDM）

用coarsened line graph先获得边特征，然后传播节点和边特征。

RSHN官方代码没有验证集，直接在测试集上调参，而且在论文中报出的是在测试集上准确率最高的epoch的准确率。用这种调法GAT都能调出100%了。

2.1.4 HetGNN8（2019 KDD）

用RWR抽样异质邻居，按节点类型分类，然后用NN聚合。NN有两个模块，第一个模块编码内容，第二个模块聚合特征。

代码不公平的问题和HAN一样。

2.1.5 MAGNN4（2020 WWW）

考虑了节点的特征信息、metapath的中间节点和多种metapath。

MAGNN包含三个部件：

① node content transformation

② intra-metapath aggregation

③ inter-metapath aggregation

代码不公平的问题和HAN一样。

此外链路预测中还存在数据泄露问题：每个minibatch都会全是正值或者全是负值，批归一化的平均值和方差会提供额外信息。（没看懂）打乱测试集后效果就会下降很多。

2.1.6 HGT9（2020 WWW）

原数据集巨大，一般HGNNs模型跑不了，除非做subgraph sampling。为了解决抽样误差，本文用小数据集做了实验。

2.1.7 HetSANN10（2020 AAAI）

用type-specific graph attention layer聚合局部信息，这样就不需要手动挑选meta-paths了。

这篇论文没有提供数据集和预处理细节。

2.2 链路预测

2.2.1 RGCN11（2018 ESWC）

RGCN卷积可以被视为原始GCN在不同边类型上的加权求和：

2.2.2 GATNE12（2019 KDD）

2.3 knowledge-aware recommendation

2.3.1 KGCN13（2019 WWW） & KGCN-LS14（2019 KDD）

KGCN聚合知识图谱中实体邻居

KGNN-LS更进一步提出label smoothness假设，加正则项学习personalized weighted knowledge graph

2.3.2 KGAT15（2019 KDD）

类似KGCN。

针对knowledge graph reconstruction制定辅助损失函数，用预训练的BPR-MF作为输入。

本文提出了KGAT-，比KGAT更简单，但是效果相似甚至更好。

3. Leaderboard（虽然没人玩）

链路预测任务被建模为二分类问题。

从RGCN11中我们知道用DistMult16比直接点乘效果好（因为复杂的边类型），所以：

链路预测的指标是ROC-AUC和MRR。

其他略。

4. Simple-HGN

4.1 模型结构

GAT+

①可学习的类型嵌入

②residual connections

节点上有一个：

当隐藏层维度发生变化时：

边上还有一个：

multi-head attention：

还有其他一些改进（类似JKNet）

③输出嵌入上的L2正则

4.2 模型分析：Ablation Study

文章标签：

机器学习/深度学习

知识图谱

人工智能

数据采集

诸神缄默不语

目录

相关文章

BetterBench

|

4月前

|

移动开发算法数据挖掘

【博士每天一篇文献-算法】Extending stability through hierarchical clusters in Echo State Networks

本文研究了在回声状态网络（ESN）中引入分层聚类结构对网络稳定性的影响，发现通过调整簇内和簇间的连接性及每个簇的主干单元数量，可以扩展谱半径的稳定范围，从而提高网络的稳定性和性能。

BetterBench

42 2 2

INSVAST

|

1月前

|

机器学习/深度学习测试技术算法

文献解读-DNAscope: High accuracy small variant calling using machine learning

在这项研究中，研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析，能够确认DNAscope在大多数分层区域中都具有高准确性，并突显了DNAscope在插入缺失（indels）和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型，以及用于变异基因型分析的机器学习方法，在保持计算效率的同时实现了卓越的准确性。

INSVAST

36 3 3

文献解读-DNAscope: High accuracy small variant calling using machine learning

INSVAST

|

2月前

|

算法数据挖掘数据处理

文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads

PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术，其平均读数长度超过 10kb，平均碱基准确率达到 99.8% 。在该研究中，研究者介绍了一种准确、高效的 DNAscope LongRead 管道，用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展，该工具曾获美国食品药品管理局（FDA）精密变异调用奖。

INSVAST

32 2 2

文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads

BetterBench

|

4月前

|

机器学习/深度学习存储开发框架

【博士每天一篇文献-算法】NICE Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learn

NICE（Neurogenesis Inspired Contextual Encoding）是一种新型深度神经网络架构，旨在通过模拟生物神经系统的成熟过程来解决类别增量学习中的灾难性遗忘问题，无需重放旧样本即可实现有效的增量学习。

BetterBench

63 5 5

BetterBench

|

4月前

|

机器学习/深度学习算法数据挖掘

【博士每天一篇文献-模型】Investigating Echo State Network Performance with Biologically-Inspired Hierarchical

本文研究了一种受果蝇生物启发的分层网络结构在回声状态网络（ESN）中的应用，通过引入层次随机块模型（HSBM）来生成具有更好结构性的网络拓扑，发现这种新拓扑结构的网络在Mackey-Glass系统预测和MNIST分类任务中表现出改善的整体解分布，从而提高了ESN的性能。

BetterBench

31 2 2

Trouble..

|

存储机器学习/深度学习人工智能

PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读

据我们所知，我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作，我们设计了一个指标来帮助自动选择一组伪触发词。此外，这种度量也可用于度量DEE中带标注触发词的质量。

Trouble..

136 1 1

编程技术君

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（3）

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（3）

编程技术君

89 0 0

编程技术君

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（2）

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（2）

编程技术君

76 0 0

编程技术君

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（9）

带你读《2022技术人的百宝黑皮书》——SGGG: Self-adaption Generative Gating Graph model for Personalized Micro-video Recommendation（9）

编程技术君

80 0 0

诸神缄默不语

|

机器学习/深度学习算法数据挖掘

Re18：读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

Re18：读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

诸神缄默不语

197 0 0

Re18：读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

热门文章

最新文章

跟阿里云技术专家阙寒一起深度了解视频直播CDN技术

流批一体的近实时数仓的思考与设计

丰富、连接、待集成—MaxCompute 生态再出发

securecrt克隆会话与sshd 的 MaxSessions

Flink 消息聚合处理方案

VMware安装的相关文章

forever让nodejs应用后台执行

路边的烧烤摊杂感

size_type、size_t、differentce_type以及ptrdiff_t

《人工智能知识图谱构建与应用的最新突破与成果》

《零样本学习：突破瓶颈，开启智能新征程》

《知识表示：开启人工智能学习与推理的密钥》

《信息传播：人工智能助力驱散虚假信息阴霾》

《多模态融合：开启智能新时代的钥匙》

自学记录鸿蒙 API 13：实现人脸检测 Core Vision Face Detector

阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测，机遇, 挑战与展望

在线使用：Poe Ai网页版_pc版_poe ai中文官网入口

java项目中jar启动执行日志报错：no main manifest attribute, in /www/wwwroot/snow-server/z-server.jar-jar打包的大小明显小于正常大小如何解决

新手指南：人工智能poe ai 怎么用？国内使用poe记住这个方法就够了！

相关电子书

更多

ACCELERATING SPARK GENOME SEQUENCING IN CLOUD – A DATA DRIVEN APPROACH, CASE STUDIES AND BEYOND

Big Data-Based Fraud Detection On Modern Cloud Technology

Real-time analytical query processing and predictive model building on high dimensional document datasets with timestamps

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)