MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路

简介: 近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)

近年来,随着关系数据的广泛应用,图结构数据的学习模型因其出色的泛化能力而备受关注。然而,现有的图学习模型在处理复杂多变的图数据时,往往需要大量的微调工作,限制了其在实际应用中的灵活性。为了解决这一问题,香港大学的研究团队提出了一种名为AnyGraph的统一图模型,旨在应对图数据中的结构异质性、特征异质性、快速适应和规模定律出现等关键挑战。

AnyGraph模型基于图混合专家(MoE)架构构建,能够有效地处理图数据中的结构级和特征级异质性。通过学习一组多样化的图专家,每个专家都专门处理特定的结构特征,AnyGraph能够适应各种不同的图数据分布,包括从均匀分布到高度偏斜的节点度分布。此外,AnyGraph还提出了一种轻量级的图专家路由机制,使得模型能够快速适应新的图数据和领域,而无需进行大规模的重新训练或微调。

为了验证AnyGraph的性能,研究团队在38个不同的图数据集上进行了广泛的实验。实验结果表明,AnyGraph在零样本学习任务上表现出了出色的性能,能够有效地处理跨领域的数据分布偏移。此外,AnyGraph还展示了快速的适应能力,能够在新的图数据集上快速收敛并取得优异的性能。

然而,AnyGraph也存在一些局限性。首先,由于AnyGraph采用了MoE架构,其计算复杂度相对较高,可能会对计算资源有限的场景造成一定的挑战。其次,AnyGraph的图专家路由机制虽然能够有效地选择合适的专家进行处理,但如何进一步提高路由的准确性和效率仍然是一个有待研究的问题。

论文链接:https://arxiv.org/pdf/2408.10700

目录
相关文章
|
7天前
|
自然语言处理
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
复旦大学研究团队提出Two-Player架构,通过分离推理和批评模型的角色,突破大语言模型(LLM)在复杂推理任务中的自我反思瓶颈。该架构利用批评模型提供逐步反馈,监督推理模型,提升其性能。研究开发了AutoMathCritique框架,收集76,321个响应数据,实验表明批评模型显著提高演员模型的探索效率和解决方案多样性。论文地址:http://arxiv.org/abs/2411.16579
27 2
|
1月前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
55 11
|
2月前
|
机器学习/深度学习 人工智能 算法
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
中国科学技术大学MIRA团队提出了一种名为TRACER的创新算法,旨在解决离线强化学习中数据损坏问题。TRACER通过引入贝叶斯推理捕捉不确定性,利用熵度量区分损坏与无损数据,从而提高模型鲁棒性。实验表明,TRACER在多种数据损坏情况下显著优于现有方法。论文已发表于NeurIPS 2024。
55 23
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law
【9月更文挑战第24天】香港大学黄超教授团队提出了一种创新的图神经网络模型AnyGraph,该模型利用Mixture-of-Experts架构解决了图数据的异构性和适应性问题,在零样本学习和快速适应能力方面表现出色。研究首次揭示了图大模型的Scaling Law,即模型性能随规模和数据量增加而提升的规律,为图神经网络的发展提供了新视角。尽管AnyGraph在多个领域展示了卓越性能,但也存在计算复杂度高和泛化能力局限等挑战。论文详细内容可在此链接查阅:https://arxiv.org/pdf/2408.10700
83 3
|
7月前
|
机器学习/深度学习 编译器 TensorFlow
【ASPLOS2024】RECom:通过编译器技术加速推荐模型推理,论文中选并获得荣誉奖项!
2024年5月,关于推荐模型自动编译优化的论文《RECom: A Compiler Approach to Accelerate Recommendation Model Inference with Massive Embedding Columns》在系统领域顶会ASPLOS 2024上中选并进行了展示,并被授予了Distinguished Artifact Award 荣誉,以表彰RECom的易用性与结果的可复现性。
|
9月前
|
测试技术 自然语言处理 人工智能
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律,通过分析80个语言模型构建通用缩放模型,预测LM性能。研究显示,模型能力可用低维空间表示,与计算量呈对数线性关系。通过主成分分析,他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能,低成本评估后训练干预效果。然而,模型局限性在于可能不适应未来显著不同的模型和任务,也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)
64 2
|
10月前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
172 1
|
10月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
119 0
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
162 0