冠军10万美金!AMD 2025 分布式推理算子优化挑战赛来了

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 冠军10万美金!AMD 2025 分布式推理算子优化挑战赛来了

image.gif 还记得今年春季的 “智算极速争锋 AMD 2025推理优化挑战赛“ 吗?在社区的大力推广下,我们集结了数百位开发者,在 AMD GPU 上展开算子性能的极限拉扯,排行榜刷新到最后一刻,开发者及社区热度持续飙升,涌现出一批在开源实现上突破极限的高手!


金秋时节,我们再次开启 AMD 2025 分布式推理算子优化挑战赛!本次赛事聚焦多GPU分布式推理算子的开发与优化,目标是在 AMD GPU 上实现 LLM 推理性能的突破。


💰 你没有看错,高额奖金池等你来战!

🥇 特等奖:100,000美元

🥈 第一名:25,000美元

🥉 第二名:15,000美元

🏅 第三名:10,000美元


部分优胜者将受邀前往旧金山,参加 AMD DevDay 及颁奖典礼,与全球顶尖开发者面对面交流!

🧠 技术挑战亮点 本次挑战赛将围绕三类分布式推理算子展开:

1. 单节点8GPU全互连算子(All-to-All):考验通信与计算融合的极限调度能力

2.单节点8GPU GEMM + Reducescatter:挑战跨GPU矩阵乘与通信融合的性能瓶颈

3.单节点8GPU Allgather + GEMM:聚合与计算并行优化,适配大模型推理场景


📊 每类题目将提供

  • 参考实现(baseline)
  • 性能理论上限(roofline)
  • 输入 shape 与配置
  • 自动化评测平台(KernelBot)

📅 时间节点(北京时间)

  • 报名时间:2025年8月24日上午3:00-9月21日下午14:59
  • 提交时间:2025年8月31日上午3:00-10月14日下午14:59

🛠️ 参赛方式

  • 个人或最多三人组队
  • 年满18岁,拥有有效 GitHub ID 和 Discord ID
  • 中国大陆参赛者可通过指定GitHub CLI 工具或Discord KernelBot提交算子,自动运行并上传结果

🤝 社区合作

本次挑战赛由 AMD 联合魔搭社区 与Datawhale 共同举办,依托中国开发者生态,提供技术支持、资源分享与社区交流。欢迎所有对 GPU 性能优化、分布式推理、开源算子挑战感兴趣的开发者参与!


📬 立即报名

image.gif 扫码报名大赛

🙌 进群交流

只要对大赛感兴趣,就能进群。

image.gif

目录
相关文章
|
19天前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
316 4
|
2月前
|
机器学习/深度学习 监控 算法
分布式光伏储能系统的优化配置方法(Matlab代码实现)
分布式光伏储能系统的优化配置方法(Matlab代码实现)
118 1
|
2月前
|
机器学习/深度学习 并行计算 算法
基于目标级联法的微网群多主体分布式优化调度(Matlab代码实现)
基于目标级联法的微网群多主体分布式优化调度(Matlab代码实现)
|
1月前
|
存储 监控 算法
117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。
|
2月前
|
算法 安全 Python
【顶级EI复现】分布式电源选址定容的多目标优化算法(Matlab代码实现)
【顶级EI复现】分布式电源选址定容的多目标优化算法(Matlab代码实现)
102 1
|
3月前
|
边缘计算 运维 算法
含分布式电源的配电网日前两阶段优化调度模型(Matlab代码实现)
含分布式电源的配电网日前两阶段优化调度模型(Matlab代码实现)
|
2月前
|
并行计算 算法 调度
基于串行并行ADMM算法的主从配电网分布式优化控制研究(Matlab代码实现)
基于串行并行ADMM算法的主从配电网分布式优化控制研究(Matlab代码实现)
143 0
|
2月前
|
算法 Python
【EI复现】考虑网络动态重构的分布式电源选址定容优化方法(Matlab代码实现)
【EI复现】考虑网络动态重构的分布式电源选址定容优化方法(Matlab代码实现)
|
2月前
|
算法 安全 新能源
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
179 0
|
4月前
|
数据采集 缓存 NoSQL
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个针对高频新闻站点的分布式爬虫系统优化方案。通过引入异步任务机制、本地缓存池、Redis pipeline 批量写入及身份池策略,系统采集效率提升近两倍,数据同步延迟显著降低,实现了分钟级热点追踪能力,为实时舆情监控与分析提供了高效、稳定的数据支持。
136 1
分布式新闻数据采集系统的同步效率优化实战

热门文章

最新文章