7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

简介: Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;支持投稿复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新。

01 论文概述

论文标题:Less is More: Recursive Reasoning with Tiny Networks
作者团队:三星AI实验室(Samsung SAIL Montréal)
发布时间:2025年9月6日

👉一键直达论文
👉Lab4AI大模型实验室论文阅读

Lab4AI提供 ✨AI导读 和 AI翻译✨ 工具

研究背景与动机

当前推理模型在解决需要多步、精确推理的难题时面临“大模型低效、小模型乏力”的矛盾。核心问题集中在大语言模型(LLMs)与层次推理模型(如 HRM)存在显著短板:大语言模型(LLMs)是自回归生成答案的,会因为单个错误导致推理的答案错误。而已有研究者认为依赖链式推理(CoT)和测试时计算(TTC)可以增加推理准确性,但这些方法需要高质量的数据且鲁棒性差。

在TRM之前,有研究者提出递归层次推理HRM,它模仿生物大脑,使用两个小神经网络在不同频率上进行递归思考。HRM虽然在推理任务上超越LLMs的小模型,但是它的设计复杂、依赖不动点定理且训练不稳定。TRM应运而生,旨在以更简单、高效的方式实现递归推理

TRM是什么

10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“少即是多”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。

作者对HRM进行了简化和改进。TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs(如Gemini 2.5 Pro)。

核心架构

TRM的核心架构可以用以上图表示。TRM的工作流程可以结合图1和算法3直观理解:

1. 初始化: 输入问题、初始答案和潜在推理状态。

2. 深度监督循环: 对于每个训练样本,模型进行最多次改进步骤。

3. 潜在递归: 在每个监督步骤中,模型执行一个“深度递归”过程

(1)无梯度预热:先进行次(如2次)完整的“潜在递归”,即先递归更新(次),再根据新的更新。此过程不计算梯度,目的是利用模型自身的计算能力初步优化答案。

(2)有梯度递归:最后进行1次有梯度的“潜在递归”,这次的反向传播会贯穿整个递归过程。

4. 损失计算与停止判断: 计算预测答案的损失以及停止概率的损失。如果停止概率超过阈值,则提前结束对该样本的深度监督循环。

5. 梯度更新: 执行反向传播和梯度更新,并将当前步的和截断梯度后作为下一步的初始值。

核心方法与创新思路

论文的贡献并非表面改进,而是从理论、架构、效率等层面重构递归推理模型

1.摒弃不动点定理,实现“完整递归反向传播”

HRM的存在一个问题:仅反向传播最后 2 步(1个+1个),依赖“不动点假设”,但实际未收敛,梯度计算不完整;

TRM针对这个问题,提出了解决方案:TRM不再假设收敛,而是直接通过整个递归过程(n次 latent reasoning + 1次 answer refinement)进行反向传播。为了在深度监督中利用无梯度计算进行“预热”,它先进行T-1次无梯度递归,再进行1次有梯度的递归。这彻底避开了IFT的理论争议,并带来了巨大的性能提升。

2.重构 Latent 变量,无需分层与生物解释

作者提出了一个更自然的解释:其实就是当前答案的嵌入表示,而是一个纯粹的中间推理状态。因此,TRM将其重命名为(答案)和(推理状态)。这种解释明确了为什么需要两个特征:用于记住当前解决方案,用于进行链式推理

3.单网络替代双网络,参数规模减半

既然更新和更新的任务区别仅在于输入中是否包含问题,TRM使用一个共享的微小网络来同时完成这两项任务。

TRM用单个2层网络同时实现“更新(推理)”与 “更新(解优化)”,通过“输入是否包含” 区分任务:

更新z时:输入为(需结合问题x优化推理);

更新y时:输入为(无需,仅基于推理优化解);

4.少即是多”的规模控制

作者发现将网络深度从4层减少到2层,同时按比例增加递归次数以保持总计算量,能显著提升泛化性能。这凸显了在小数据场景下,避免过拟合比增加模型容量更重要。

5.无注意力架构用于固定短语长度的任务

对于固定且较小的上下文(如9x9数独),TRM用应用于序列维度的MLP取代了自注意力机制,灵感来自MLP-Mixer。这在数独任务上带来了巨大提升,但在上下文较大的任务(如30x30网格)上,自注意力仍更有效。

6.简化 ACT 机制,消除额外前向传播

TRM移除了需要额外前向传播的Q-learning“继续”损失,只保留一个基于答案正确性的二值交叉熵“停止”损失。

6.引入 EMA,抑制小数据集过拟合

HRM在小数据集(如 1K 样本的 Sudoku-Extreme)上易过拟合,训练后期准确率骤降。为了在小型数据集上稳定训练并防止过拟合,TRM采用了指数移动平均(EMA),权重更新时平滑参数(EMA decay=0.999),减少权重波动。

实验设计与结果分析

论文在数独、迷宫、ARC-AGI-1/2四个基准上的实验结果非常令人印象深刻:

ü TRM(7M参数)全面超越了HRM(27M参数),例如在ARC-AGI-2上将性能从5.0%提升至7.8%。

ü TRM大幅超越了众多参数量巨大的LLMs,证明了其解决复杂推理问题的巨大潜力。

这些结果强有力地支持了论文的核心理念:对于某些需要系统化推理的、数据稀缺的任务,一个参数极少但能够进行深度递归计算的模型,可能比一个参数庞大但推理路径短的模型更有效。

02 论文原文阅读

👉Lab4AI大模型实验室论文阅读

AI翻译——对照阅读

AI导读——获取核心信息

  • Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。

相关文章
|
17天前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
21天前
|
人工智能 机器人 数据处理
ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍
Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
|
人工智能 Java 测试技术
代码采纳率如何提升至50%?AI 自动编写单元测试实践总结
借助Aone Copilot Agent,通过标准化Prompt指导AI生成单元测试代码,实现50%代码采纳率,显著提升测试效率与质量,推动团队智能化研发转型。
286 20
|
29天前
|
人工智能 并行计算 算法
为什么 OpenSearch 向量检索能提速 13 倍?
本文介绍在最新的 OpenSearch 实践中,引入 GPU 并行计算能力 与 NN-Descent 索引构建算法,成功将亿级数据规模下的向量索引构建速度提升至原来的 13 倍。
577 24
为什么 OpenSearch 向量检索能提速 13 倍?
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
当情绪也能被“量化”:数据如何悄悄改变心理健康分析与治疗
当情绪也能被“量化”:数据如何悄悄改变心理健康分析与治疗
148 14
|
29天前
|
分布式计算 监控 API
DMS Airflow:企业级数据工作流编排平台的专业实践
DMS Airflow 是基于 Apache Airflow 构建的企业级数据工作流编排平台,通过深度集成阿里云 DMS(Data Management Service)系统的各项能力,为数据团队提供了强大的工作流调度、监控和管理能力。本文将从 Airflow 的高级编排能力、DMS 集成的特殊能力,以及 DMS Airflow 的使用示例三个方面,全面介绍 DMS Airflow 的技术架构与实践应用。
|
22天前
|
存储 缓存 Java
重构一个类,JVM竟省下2.9G内存?
通过重构核心类,将 `HashMap<Long, HashSet<String>>` 优化为 `Long2ObjectOpenHashMap<int[]>`,结合数据分布特征与紧凑存储,JVM 堆内存从 3.13GB 降至 211MB,降幅达 94%,验证了高效数据结构在海量场景下的巨大价值。
226 24
重构一个类,JVM竟省下2.9G内存?
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
521 38
|
2月前
|
人工智能 监控 安全
让Agent系统更聪明之前,先让它能被信任
当我们将所有希望寄托于大模型的「智能」时,却忘记了智能的不确定性必须以工程的确定性为支撑。一个无法复现、无法调试、无法观测的智能,更像是一场精彩但失控的魔法,而非我们真正需要的、可靠的生产力。本文尝试从系统工程的视角剖析 Agent 系统在可运行、可复现与可进化三个层次上不断升级的问题以及复杂度。进一步认识到:框架/平台让 Agent 「好搭」但没有让它「好用」,真正的复杂性,从未被消除,只是被推迟。
316 33
让Agent系统更聪明之前,先让它能被信任
|
18天前
|
SQL 分布式计算 DataWorks
【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第七篇,基于MaxCompute 多租的大数据平台架构。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
177 27