港科大这个AI突破,让大模型学会“偷懒”了

简介: 多模态大模型推理效率低?港科大最新研究MoDES,让AI学会“偷懒”——跳过88%冗余专家,保住97%性能,推理速度翻倍。这项被CVPR接收的突破,正在让大模型从“拼参数”转向“拼效率”。

跳过88%的专家,保住97%的性能,推理速度翻倍——这项研究刚刚被CVPR接收

image.png

你有没有这种感觉:现在的AI越来越聪明,但也越来越“能吃”?

一个能看图能聊天的多模态大模型,跑一次任务要调动几十上百个“专家”一起干活,算力消耗大得吓人。这也是为什么很多炫酷的AI功能只能跑在云端,手机里根本装不下。

但3月5日,港科大团队放出一项被CVPR接收的新研究,可能会改变这个局面。

让AI学会“偷懒”:88%专家可以放假

这项研究叫MoDES(多模态动态专家跳过框架),名字有点绕,但核心逻辑特别简单——让AI学会“偷懒”

想象一下,你是一家大公司的老板,手下有100个专家。以前处理任何任务,你都要把所有专家叫来开会,不管这件事多简单。是不是特别浪费?

MoDES做的就是:只叫该来的人。

在Qwen3-VL-MoE-30B模型上的测试显示,MoDES能智能跳过高达88%的冗余专家,同时还能保留97.33%的原始性能。换句话说,AI干活只用原来1/10的人力,但活儿干得一点不差。

image.png

为什么以前做不到?两个关键洞察

你可能会问:让AI“少干活”这事,以前没人想过吗?

想过。但以前为纯文本模型设计的专家跳过方法,放到多模态模型上就失灵了——跳过比例一高,性能直接崩盘。

港科大团队没有直接扔出新方案,而是先问了一个根本问题:为什么以前的方法在多模态模型上会失效?

论文给出了两个关键发现

洞察一:不同层的专家,重要性天差地别

以前的方法只看当前层的路由概率来判断专家是否重要,但实验发现:浅层专家的作用远比深层专家关键。

如果按统一规则跳过,很容易把浅层的关键专家也删掉——而浅层的误差会在后续层被不断放大,最终导致性能崩溃。这就像盖房子,地基的柱子抽掉了,楼上再漂亮也得塌。

洞察二:文字和图片,在AI眼里是两种生物

团队进一步分析了不同模态token的行为差异,发现:

● 文本token对专家很“挑剔”,专家对文本更新的影响幅度明显更大

● 视觉token存在大量冗余,专家对视觉的影响相对较小

以前的方法不分青红皂白,对文字和图片一刀切——结果就是,要么为了保护文字不敢跳过,要么跳太多把关键专家也删了。

image.png

MoDES的解法:给不同人不同待遇

基于这两个洞察,MoDES的核心机制可以拆解为三个设计:

1. 全局调制局部门控(GMLG)

不再只看当前层的局部概率,而是引入一个全局重要性因子——通过离线校准,量化每一层专家对最终输出的整体贡献。

新的专家重要性分数由“局部路由概率”和“全局因子”共同决定。这样,浅层专家会被更保守地保留,深层专家可以更激进地跳过。

2. 双模态阈值(DMT)

为文本token和视觉token分别设定不同的跳过阈值。

对关键的文字部分,小心翼翼;对冗余的视觉部分,大胆跳过。就这么一个简单的“区别对待”,效果立竿见影。

3. 前沿搜索算法

要找到最优的阈值组合,原本需要跑好几天。MoDES设计了一个利用单调性性质的前沿搜索算法,把搜索时间从几天压缩到几小时,缩短约45倍。

image.png

硬核数据:不止一家模型验证

MoDES的效果不止在一个模型上验证。

在Kimi-VL-A3B-Instruct上,跳过83%专家时,现有方法性能平均掉超11%,而MoDES仍保留96.25%的原始性能。

在更大的Qwen3-VL-MoE-30B-A3B-Instruct上,跳过88%专家时,对比方法只保住86.66%和85.30%的性能,而MoDES仍然保住97.33%。

在13个图像与视频理解基准上,MoDES均取得最优或接近最优表现。

image.png

还有个隐藏福利:和量化可以叠加

MoDES是免训练框架,推理阶段不引入额外计算开销。

更重要的是,它和低比特量化兼容性良好——两者可以从结构和数值两个层面形成互补,共同降低计算成本。这意味着你可以“跳过+压缩”双管齐下,把模型塞进更小的设备。

这件事为什么值得你关注?

你可能不是技术人员,不需要知道MoDES的代码怎么写,但这件事背后的趋势,值得你留意一下:

大模型的竞争,正在从“拼参数”转向“拼效率”。

以前谁家模型参数大、谁烧的钱多,谁就更牛。但现在大家发现,这条路快走不下去了——参数量再翻几倍,电费都交不起。

MoDES代表的是另一条路:不堆参数,堆架构。让模型学会“聪明地偷懒”,用更少的资源干一样的活。

团队在论文最后说了一句话很有意思:MoDES证明了一件事——即便跳过80%以上的专家,只要跳得足够“聪明”,模型性能依然可以稳定保持。

这条路,才是大模型能真正“飞入寻常百姓家”的关键。

最后说两句

港科大的这项研究,不是什么“颠覆式创新”,也没有什么花里胡哨的概念。

它做的就是一件事:先把多模态模型推理时的“浪费”找出来,然后精准地砍掉。

有点像整理房间——不是把东西全扔掉,而是把不常用的收起来,常用的摆在手边。房间还是那个房间,但住起来舒服多了。

如果你想持续跟进这类大模型的前沿进展和落地实践,可以关注LlamaFactory Online——第一时间体验最新模型的微调效果,看看这些“效率突破”在实际中跑起来什么样。

后续我们会继续拆解更多AI前沿,不造概念、不夸大,只讲真实的技术和价值。

目录
相关文章
|
25天前
|
存储 机器学习/深度学习 自然语言处理
56.大模型应用:大模型瘦身:量化、蒸馏、剪枝的基础原理与应用场景深度解析.56
本文深入对比大模型轻量化三大核心技术:量化(降精度,快部署)、蒸馏(知识迁移,高精度)、剪枝(删冗余,结构精简)。详解原理、分类、适用场景、代码实现及选型建议,助开发者根据硬件条件、精度要求与落地周期科学决策。
602 16
|
1月前
|
SQL 人工智能 安全
从企业微信“养龙虾”说起:个人开发者的AI工具选型思考
“龙虾”(OpenClaw)是2026年爆火的开源AI智能体,主打“真能干活”,支持跨应用自动化操作;但其通用性带来稳定性与工程适配短板。相较之下,飞算JavaAI专业版聚焦IDE内垂直提效,提供高采纳率代码生成、老项目理解、安全修复等10大工具,9.9元/月起,更适配Java开发者真实生产力需求。(239字)
|
1月前
|
人工智能 安全 Linux
零基础玩转OpenClaw(Clawdbot):阿里云/本地部署+免费API配置及100款Skill清单与避坑指南
2026年,OpenClaw(曾用名Clawdbot)凭借开源免费、插件化扩展的核心优势,已成为个人与轻量团队的“全能AI助手”。其Skill生态更是百花齐放,ClawHub平台已收录数千款实用插件,覆盖安全基础、办公效率、开发辅助、生活实用、内容创作五大核心场景。但新手面对海量Skill往往陷入“选择困难”,同时跨平台部署的环境配置、免费大模型API的对接也成为入门拦路虎。
660 1
|
1月前
|
人工智能 弹性计算 监控
OpenClaw超全指南!是什么?能干嘛?怎么部署?
OpenClaw(龙虾)是一款开源AI智能体,可直接操作本地电脑:文件管理、终端命令、浏览器自动化、代码编写、邮件处理、定时任务等。阿里云提供一键部署方案,三步即可拥有专属AI助理,解放双手!
2010 130
|
12天前
|
缓存 供应链 架构师
数据架构是什么?一文讲清数据架构和技术架构的区别
本文系统解析企业数字化核心框架——“4A架构”(业务、数据、应用、技术架构),阐明其严格递进的逻辑链:业务架构定方向(做什么)、数据架构转语言(数据化表达)、应用架构落功能(系统实现)、技术架构保运行(稳定支撑)。破除“重技术轻业务”误区,助企业构建贴合实际、可演进的数字化架构体系。
数据架构是什么?一文讲清数据架构和技术架构的区别
|
30天前
|
存储 人工智能 关系型数据库
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
OpenClaw插件是深度介入Agent生命周期的扩展机制,提供24个钩子,支持自动注入知识、持久化记忆等被动式干预。相比Skill/Tool,插件可主动在关键节点(如对话开始/结束)执行逻辑,适用于RAG增强、云化记忆等高级场景。
829 56
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
|
29天前
|
存储 人工智能 API
OpenClaw多Agent搭建喂饭级教程:阿里云/本地部署+百炼API配置+实战避坑指南
2026年,OpenClaw的爆火并非源于复杂的技术架构——其核心框架难度仅相当于“带初级推荐算法的前后端通信App”,真正的价值在于构建了行业共识:让分散的Agent开发走向标准化,开发者无需再反复沟通架构设计,可聚焦于功能落地与场景创新。更关键的是,它天然支持多Agent协同,完美破解了单Agent的Context窗口瓶颈,让“专事专做”成为AI效率提升的核心路径。
703 7
|
30天前
|
Arthas 人工智能 Java
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
Arthas Agent 是基于阿里开源Java诊断工具Arthas的AI智能助手,支持自然语言提问,自动匹配排障技能、生成安全可控命令、循证推进并输出结构化报告,大幅降低线上问题定位门槛。
872 64
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
|
30天前
|
人工智能 安全 前端开发
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
HiClaw 是 OpenClaw 的升级版,通过引入 Manager Agent 架构和分布式设计,解决了 OpenClaw 在安全性、多任务协作、移动端体验、记忆管理等方面的核心痛点。
1814 60
阿里开源 Team 版 OpenClaw,5分钟完成本地安装

热门文章

最新文章