MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路

简介: 近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)

近年来,随着关系数据的广泛应用,图结构数据的学习模型因其出色的泛化能力而备受关注。然而,现有的图学习模型在处理复杂多变的图数据时,往往需要大量的微调工作,限制了其在实际应用中的灵活性。为了解决这一问题,香港大学的研究团队提出了一种名为AnyGraph的统一图模型,旨在应对图数据中的结构异质性、特征异质性、快速适应和规模定律出现等关键挑战。

AnyGraph模型基于图混合专家(MoE)架构构建,能够有效地处理图数据中的结构级和特征级异质性。通过学习一组多样化的图专家,每个专家都专门处理特定的结构特征,AnyGraph能够适应各种不同的图数据分布,包括从均匀分布到高度偏斜的节点度分布。此外,AnyGraph还提出了一种轻量级的图专家路由机制,使得模型能够快速适应新的图数据和领域,而无需进行大规模的重新训练或微调。

为了验证AnyGraph的性能,研究团队在38个不同的图数据集上进行了广泛的实验。实验结果表明,AnyGraph在零样本学习任务上表现出了出色的性能,能够有效地处理跨领域的数据分布偏移。此外,AnyGraph还展示了快速的适应能力,能够在新的图数据集上快速收敛并取得优异的性能。

然而,AnyGraph也存在一些局限性。首先,由于AnyGraph采用了MoE架构,其计算复杂度相对较高,可能会对计算资源有限的场景造成一定的挑战。其次,AnyGraph的图专家路由机制虽然能够有效地选择合适的专家进行处理,但如何进一步提高路由的准确性和效率仍然是一个有待研究的问题。

论文链接:https://arxiv.org/pdf/2408.10700

目录
相关文章
|
4月前
|
机器学习/深度学习 编译器 TensorFlow
【ASPLOS2024】RECom:通过编译器技术加速推荐模型推理,论文中选并获得荣誉奖项!
2024年5月,关于推荐模型自动编译优化的论文《RECom: A Compiler Approach to Accelerate Recommendation Model Inference with Massive Embedding Columns》在系统领域顶会ASPLOS 2024上中选并进行了展示,并被授予了Distinguished Artifact Award 荣誉,以表彰RECom的易用性与结果的可复现性。
|
6月前
|
机器学习/深度学习 人工智能 算法
Scaling Law触礁数据墙?Epoch AI发文预测LLM到2028年耗尽所有文本数据
【6月更文挑战第23天】Epoch AI警告,大语言模型(LLM)可能在2026-2032年间面临“数据墙”,因人类生成文本数据耗尽。论文探讨LLM扩展限制,提出合成数据、迁移学习和提高数据效率作为应对策略,但也引发数据隐私和伦理问题。研究敦促平衡模型发展与数据资源管理[[1](https://arxiv.org/abs/2211.04325)]。
116 6
|
6月前
|
测试技术 自然语言处理 人工智能
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律,通过分析80个语言模型构建通用缩放模型,预测LM性能。研究显示,模型能力可用低维空间表示,与计算量呈对数线性关系。通过主成分分析,他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能,低成本评估后训练干预效果。然而,模型局限性在于可能不适应未来显著不同的模型和任务,也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)
56 2
|
7月前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
145 1
|
7月前
|
存储 编解码 计算机视觉
MobileCLIP来袭 | 如果CLIP可以通过重参加速,你会选择用它作为Backbone预训练吗
MobileCLIP来袭 | 如果CLIP可以通过重参加速,你会选择用它作为Backbone预训练吗
212 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
200 0
|
机器学习/深度学习 人工智能 自然语言处理
两次登顶常识推理问答榜单ProtoQA,哈工大深圳创新掩码模型重排序策略
两次登顶常识推理问答榜单ProtoQA,哈工大深圳创新掩码模型重排序策略
147 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
144 0
|
机器学习/深度学习 人工智能 搜索推荐
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
114 0
|
存储 并行计算 算法
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
276 0
下一篇
DataWorks