英伟达用AI智能体7天自主优化GPU内核,超越人类专家

简介: 英伟达推出 AVO 智能体,7 天无人工干预优化 B200 GPU 注意力内核,性能超 cuDNN 最高 3.5%、FlashAttention-4 最高 10.5%,30 分钟可迁移适配,标志 AI 从代码生成器升级为自主进化操盘手,重塑软件工程范式。

人类认知能力,已成为软件工程的瓶颈

这应该是2026年3月最炸裂的科技新闻。

在很多算子开发者的微信群里,已经掀起了轩然大波。

“这或许是超人类智能在软件领域的真正首次展露。”英伟达研究员许冰刚刚在X上发出了如此断言。他所评论的,正是他与Terry Chen和Zhifan Ye为共同一作的一项英伟达新研究——AVO。

在这项刚刚提交到arXiv上的研究中,英伟达构建了Agentic Variation Operator(AVO),一类新型进化变异算子。它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法,并取得了相当震撼的实际表现。

1、7天自主进化,超越人类专家

许冰表示:“在一些经过高度优化的注意力机制工作负载中,智能体在没有人工干预的情况下,即可在优化循环中连续搜索7天,从而超越几乎所有人类GPU专家。”——AVO的如此表现,可能会让许多内核和DSL开发者感到不安。

研究团队将AVO部署在一项极具挑战性的任务上:在NVIDIA Blackwell B200 GPU上优化多头注意力(Multi-head Attention,MHA)核心代码。注意力机制是Transformer架构的核心,也是AI芯片上被优化得最密集的计算目标之一。

在完全没有人类干预的情况下,AVO智能体连续自主运行了7天。

在这7天里,智能体在后台探索了超过500个优化方向,并最终提交了40个有效迭代版本。最终,它生成的MHA核心在BF16精度下实现了高达1668 TFLOPS的吞吐量。

在基准测试中,AVO交出的答卷令人惊叹:

● 相比英伟达官方为Blackwell定制的闭源cuDNN库,吞吐量提升了最高3.5%

● 相比目前最前沿的开源基准FlashAttention-4,吞吐量提升了最高10.5%

2 、强大的泛化能力:30分钟迁移至新任务

更令人印象深刻的是,这些由智能体发现的底层微架构优化,并非只针对特定场景的过度拟合。

当研究人员要求AVO将优化好的MHA核心适配到如今大模型常用的分组查询注意力(Grouped-query Attention,简称GQA)时,智能体仅用了约30分钟的自主调整就完成了任务。

在GQA的测试中,AVO依然保持了绝对领先优势:

● 性能比cuDNN高出最高7.0%

● 比FlashAttention-4高出最高9.3%

这表明,智能体在MHA进化过程中发现的计算和内存访问优化模式,能够有效泛化到具有不同计算特征的GQA任务中。

3 、深入底层的微架构推理

分析AVO提交的代码变更可以看出,AI智能体并非在做表面功夫,而是进行了真正深入硬件底层的逻辑推理:

无分支累加器重缩放:通过消除条件分支,智能体排除了warp同步的开销,并替换了更轻量级的内存屏障,使得非因果注意力的吞吐量一次性提升了8.1%。

纠错与张量核心(MMA)流水线重叠:智能体重新组织了执行流水线,将原本顺序执行的依赖关系转化为交叠的流水线执行,大幅减少了硬件的空闲等待时间。

跨warp组的寄存器重新平衡:智能体通过分析性能分析器的数据,发现某些运算组因为寄存器不足而导致数据溢出至慢速本地内存。它果断对Blackwell的2048个寄存器预算进行了重新分配,进一步压榨出2.1%的性能提升。

英伟达的这项研究证明,AI智能体已经具备了处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力。

在传统基于LLM的进化搜索框架中,模型往往被

4、 “盲编程”:从被动生成器到进化操盘手

困在固定的流水线里,仅仅充当候选代码的生成器。每次调用只能输出一次结果,无法主动查阅参考资料、测试代码、理解反馈或在最终提交前修正策略。

对于需要深度、反复迭代的顶级硬件优化任务来说,这种限制尤为致命。

AVO打破了这一局限,将“变异算子”实例化为一个自我驱动的智能体循环。这个AI智能体可以自由查阅之前的代码版本记录、调用领域专属的知识库(如CUDA编程指南和PTX架构文档),并根据执行反馈来主动提出、修复、批判和验证代码修改。

简而言之,AVO将AI从被动的“代码生成器”提升为了掌握全局的“进化操盘手”。

有意思的是,许冰在X推文中分享说,一年半之前他与Terry Chen刚开始在英伟达研究智能体编程时,他们还不懂GPU编程。“所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。”他们称之为“盲编程”(blind coding)。

“在过去一年半的时间里,我们两人在两个智能体系统中开发了四代智能体。从第二代开始,这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为10万行(非空代码)。”

许冰重点强调了AVO背后的重大意义:“我敢打赌:盲编程是软件工程的未来。人类认知能力是瓶颈。”

5、 算子工程师的“生存危机”?

AVO的成果引发了一个无法回避的问题:当AI智能体能够在7天内超越人类GPU专家的优化成果,算子工程师这个职业的未来在哪里?

这并非危言耸听。在2026年GTC大会上,英伟达CEO黄仁勋描绘了一幅更为宏大的图景:人类工程师将转变为“管理者”,只需输入极少的指令,就能监督大量AI智能体自主完成复杂的多步骤任务。

黄仁勋透露,英伟达目前拥有4.2万名人类员工,未来将配备数十万名“数字员工”。这些AI智能体将自动完成繁琐的任务,大幅提升生产力。

为此,黄仁勋甚至提出了一项颠覆性的薪酬模式:在工程师几十万美元底薪的基础上,额外发放相当于底薪50%的“AI算力Tokens”,鼓励员工调用AI智能体来提升生产力。

6、 “人才悖论”与新机会

然而,这种高度自动化的愿景也加剧了业界对“白领失业”的恐慌。

高盛预测,AI有望让生产力提升15%,但也可能接管美国25%的工作时长,并导致6%至7%的岗位被彻底取代。

当前职场正陷入一种“人才悖论”:美世咨询指出,尽管98%的高管预计AI将在未来两年内引发裁员,但仍有54%的高管将“人才短缺”视为首要挑战。

企业极度缺乏具备AI素养的熟练员工,而负责数据分析、文档处理的初级岗位却面临被率先淘汰的风险。初级岗位的消失正在切断职场新人传统的培训与晋升路径,进一步拉大了技能鸿沟。

不过,高盛经济学家约瑟夫·布里格斯认为,尽管就业市场在转型期会经历失业率上升的阵痛,但技术变革长远来看总会催生全新的职业。约60%的现有工作岗位在1940年时并不存在。

7 、软件工程的新范式

AVO作为通用型进化变异算子,为自动化软件系统优化指明了新方向,不仅适用于AI芯片与深度学习底层开发,更能在高算力需求的科学工程领域广泛应用。

而在大模型日常研发中,这一理念早已落地,LlamaFactory Online它将繁琐的模型微调、训练流程可视化,省去环境搭建与底层代码编写环节,让工程师专注定义目标、配置参数,交由平台自动完成训练调优,完美契合“人类做定义者,AI做执行者”的行业趋势。

英伟达这项研究证实,AI智能体已具备复杂硬件联合推理能力,AVO的自主进化,更标志着AI在软件工程中从辅助工具向自主主体的蜕变。

正如许冰所言,盲编程正是软件工程的未来。当AI能无休迭代优化、自主钻研硬件逻辑,人类工程师终将从执行者,转向问题定义与结果评估的核心角色。

AI自主进化的浪潮已至,你准备好了吗?

相关文章
|
19天前
|
存储 人工智能 关系型数据库
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
OpenClaw插件是深度介入Agent生命周期的扩展机制,提供24个钩子,支持自动注入知识、持久化记忆等被动式干预。相比Skill/Tool,插件可主动在关键节点(如对话开始/结束)执行逻辑,适用于RAG增强、云化记忆等高级场景。
743 56
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
|
16天前
|
JavaScript Linux API
OpenClaw终极指南:从搭建到高阶玩法解锁(阿里云/本地部署+百炼API配置+避坑指南)
2026年,OpenClaw已从单一对话工具进化为“全场景生产力引擎”,但多数用户仍停留在基础聊天层面,未能发掘其128K超长上下文、多格式文件解析、联网搜索、代码生成等核心能力。这款工具的真正价值,在于通过灵活部署、模型适配与高阶功能组合,成为工作与学习中“不可或缺的效率伙伴”。
751 9
|
15天前
|
前端开发 中间件 API
【剪映小助手】快速开始
capcut-mate 是面向剪映的自动化辅助工具,提供草稿管理、媒体处理、字幕特效及视频生成能力,支持 OpenAPI 与桌面客户端。新增中英文双语支持、智能语言切换(基于 Accept-Language)、跨平台适配(Windows/Linux)及统一响应格式,开箱即用。
|
24天前
|
人工智能 安全 JavaScript
保姆级教程:OpenClaw + 飞书机器人 + 阿里百炼 API 全链路部署指南
OpenClaw是开源大模型接入利器,轻松绕过网络限制、简化API鉴权、降低Token成本。本文手把手教你零基础将OpenClaw接入飞书机器人,并对接阿里百炼超低价AI套餐,全程图文详解,快速打造智能办公助手。(239字)
574 5
保姆级教程:OpenClaw + 飞书机器人 + 阿里百炼 API 全链路部署指南
|
2天前
|
数据采集 缓存 JSON
虚拟股票交易平台,模拟交易引擎Perl 6框架
该项目为虚拟教育平台开发交易引擎,采用Perl6框架实现高效数据处理与交易逻辑,支持在线教育服务的交易与管理。
|
25天前
|
人工智能 JavaScript API
少走90%弯路!OpenClaw阿里云/本地部署与Claude Code协同+5条最佳实践+百炼API配置及避坑指南
OpenClaw(原Clawdbot)作为开源AI Agent框架,核心优势是“自然语言驱动自动化执行”,而Claude Code凭借精准的代码生成、逻辑校验能力,成为OpenClaw的最佳搭档——两者协同,既能让OpenClaw高效执行终端命令、处理自动化任务,又能通过Claude Code优化代码逻辑、规避语法错误,大幅提升任务落地效率。但新手在实际使用中,往往陷入“部署困难、API配置出错、协同逻辑混乱”的困境,即便花费数小时,也难以发挥两者的核心价值。
1810 6
|
6天前
|
Rust 并行计算 数据处理
工商银行工资条生成器,Handlebars批量计算系统
该项目基于Rust语言开发,利用GPU加速处理大规模数据,构建高效的数据处理模型,适用于高性能计算和机器学习场景。技术栈主要包括Rust、CUDA及并行计算库。
|
11小时前
|
人工智能 安全 Linux
OpenClaw 本地/阿里云部署与必装4大核心Skill+大模型API全配置手册及问题排查
OpenClaw(社区常称“龙虾”)是一款轻量化、可扩展、本地优先运行的AI代理平台,通过模块化Skill实现安全检测、技能搜索、实时联网、网页自动化等核心能力,形成从安全打底到落地执行的完整工作流,适配办公、学习、开发、日常自动化等多场景。本文基于2026年最新版本,完整讲解OpenClaw四大必装Skill的功能、安装、配置与使用,同时提供本地MacOS、Linux、Windows11及阿里云轻量服务器部署流程,详解阿里云千问大模型API与免费Coding Plan API配置方法,并整理高频问题解决方案,所有命令均可直接复制执行,零基础用户也能快速搭建稳定、安全、高效的私人AI助手系统。
53 10
|
13小时前
|
人工智能 网络协议 API
零基础阿里云轻量服务器部署OpenClaw保姆级图文教程|iMessage接入与避坑指南
2026年,OpenClaw(原Clawdbot、Moltbot,社区昵称“小龙虾”)已成为本地AI自动化与消息通道集成的首选工具,尤其适合追求**隐私可控**与**多端联动**的用户。本文面向**零基础新手**,以**阿里云轻量应用服务器**为核心部署载体,完整覆盖**从零到上线**的全流程:从服务器选购、镜像部署、端口配置,到**阿里云千问大模型API**与**免费Coding Plan API**的接入,再到**iMessage通道打通**(Mac+iPhone端),最后梳理90%新手会踩的**避坑指南**与**常见问题解决方案**。
29 7
|
14小时前
|
JavaScript 小程序 Java
微信钱包app下载,数值计算与同步Pony模块
该项目为微信小程序数据同步模块,用于实现多端数据实时同步与更新,技术栈基于微信小程序原生框架与云开发能力。