7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

简介: Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;支持投稿复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新。

01 论文概述

论文标题:Less is More: Recursive Reasoning with Tiny Networks
作者团队:三星AI实验室(Samsung SAIL Montréal)
发布时间:2025年9月6日

👉一键直达论文
👉Lab4AI大模型实验室论文阅读

Lab4AI提供 ✨AI导读 和 AI翻译✨ 工具

研究背景与动机

当前推理模型在解决需要多步、精确推理的难题时面临“大模型低效、小模型乏力”的矛盾。核心问题集中在大语言模型(LLMs)与层次推理模型(如 HRM)存在显著短板:大语言模型(LLMs)是自回归生成答案的,会因为单个错误导致推理的答案错误。而已有研究者认为依赖链式推理(CoT)和测试时计算(TTC)可以增加推理准确性,但这些方法需要高质量的数据且鲁棒性差。

在TRM之前,有研究者提出递归层次推理HRM,它模仿生物大脑,使用两个小神经网络在不同频率上进行递归思考。HRM虽然在推理任务上超越LLMs的小模型,但是它的设计复杂、依赖不动点定理且训练不稳定。TRM应运而生,旨在以更简单、高效的方式实现递归推理

TRM是什么

10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“少即是多”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。

作者对HRM进行了简化和改进。TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs(如Gemini 2.5 Pro)。

核心架构

TRM的核心架构可以用以上图表示。TRM的工作流程可以结合图1和算法3直观理解:

1. 初始化: 输入问题、初始答案和潜在推理状态。

2. 深度监督循环: 对于每个训练样本,模型进行最多次改进步骤。

3. 潜在递归: 在每个监督步骤中,模型执行一个“深度递归”过程

(1)无梯度预热:先进行次(如2次)完整的“潜在递归”,即先递归更新(次),再根据新的更新。此过程不计算梯度,目的是利用模型自身的计算能力初步优化答案。

(2)有梯度递归:最后进行1次有梯度的“潜在递归”,这次的反向传播会贯穿整个递归过程。

4. 损失计算与停止判断: 计算预测答案的损失以及停止概率的损失。如果停止概率超过阈值,则提前结束对该样本的深度监督循环。

5. 梯度更新: 执行反向传播和梯度更新,并将当前步的和截断梯度后作为下一步的初始值。

核心方法与创新思路

论文的贡献并非表面改进,而是从理论、架构、效率等层面重构递归推理模型

1.摒弃不动点定理,实现“完整递归反向传播”

HRM的存在一个问题:仅反向传播最后 2 步(1个+1个),依赖“不动点假设”,但实际未收敛,梯度计算不完整;

TRM针对这个问题,提出了解决方案:TRM不再假设收敛,而是直接通过整个递归过程(n次 latent reasoning + 1次 answer refinement)进行反向传播。为了在深度监督中利用无梯度计算进行“预热”,它先进行T-1次无梯度递归,再进行1次有梯度的递归。这彻底避开了IFT的理论争议,并带来了巨大的性能提升。

2.重构 Latent 变量,无需分层与生物解释

作者提出了一个更自然的解释:其实就是当前答案的嵌入表示,而是一个纯粹的中间推理状态。因此,TRM将其重命名为(答案)和(推理状态)。这种解释明确了为什么需要两个特征:用于记住当前解决方案,用于进行链式推理

3.单网络替代双网络,参数规模减半

既然更新和更新的任务区别仅在于输入中是否包含问题,TRM使用一个共享的微小网络来同时完成这两项任务。

TRM用单个2层网络同时实现“更新(推理)”与 “更新(解优化)”,通过“输入是否包含” 区分任务:

更新z时:输入为(需结合问题x优化推理);

更新y时:输入为(无需,仅基于推理优化解);

4.少即是多”的规模控制

作者发现将网络深度从4层减少到2层,同时按比例增加递归次数以保持总计算量,能显著提升泛化性能。这凸显了在小数据场景下,避免过拟合比增加模型容量更重要。

5.无注意力架构用于固定短语长度的任务

对于固定且较小的上下文(如9x9数独),TRM用应用于序列维度的MLP取代了自注意力机制,灵感来自MLP-Mixer。这在数独任务上带来了巨大提升,但在上下文较大的任务(如30x30网格)上,自注意力仍更有效。

6.简化 ACT 机制,消除额外前向传播

TRM移除了需要额外前向传播的Q-learning“继续”损失,只保留一个基于答案正确性的二值交叉熵“停止”损失。

6.引入 EMA,抑制小数据集过拟合

HRM在小数据集(如 1K 样本的 Sudoku-Extreme)上易过拟合,训练后期准确率骤降。为了在小型数据集上稳定训练并防止过拟合,TRM采用了指数移动平均(EMA),权重更新时平滑参数(EMA decay=0.999),减少权重波动。

实验设计与结果分析

论文在数独、迷宫、ARC-AGI-1/2四个基准上的实验结果非常令人印象深刻:

ü TRM(7M参数)全面超越了HRM(27M参数),例如在ARC-AGI-2上将性能从5.0%提升至7.8%。

ü TRM大幅超越了众多参数量巨大的LLMs,证明了其解决复杂推理问题的巨大潜力。

这些结果强有力地支持了论文的核心理念:对于某些需要系统化推理的、数据稀缺的任务,一个参数极少但能够进行深度递归计算的模型,可能比一个参数庞大但推理路径短的模型更有效。

02 论文原文阅读

👉Lab4AI大模型实验室论文阅读

AI翻译——对照阅读

AI导读——获取核心信息

  • Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
329 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
2月前
|
人工智能 机器人 数据处理
ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍
Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
682 6
|
机器学习/深度学习 前端开发 PyTorch
【轻量化:蒸馏】都2023年了,你还不会蒸馏操作,难怪你面试不通过!
【轻量化:蒸馏】都2023年了,你还不会蒸馏操作,难怪你面试不通过!
366 0
【轻量化:蒸馏】都2023年了,你还不会蒸馏操作,难怪你面试不通过!
|
2月前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
本文系统解析Android崩溃捕获原理,涵盖Java与Native层崩溃的捕获机制、核心技术难点及解决方案,介绍基于Breakpad的Minidump生成、堆栈回溯与符号化解析实践,实现崩溃信息可靠采集与精准归因。
240 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
1087 38
|
2月前
|
SQL 自然语言处理 关系型数据库
构建AI智能体:二十九、Text2SQL:告别繁琐SQL!用大模型自助生成数据报表
Text2SQL技术通过自然语言处理将用户查询转换为SQL语句,解决企业数据查询效率低下的痛点。该技术包含语义理解、模式对齐、SQL生成和优化等核心处理过程,核心组件包括自然语言理解模块、Schema管理模块和SQL生成模块。文章介绍了闭源和开源模型的选择策略,并提供了基于Function Calling的Text2SQL实现示例,展示如何安全高效地将自然语言转换为数据库查询。
1127 4
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
327 2
|
机器人 C++ Python
ROS2教程 02 功能包
本文是关于ROS2(机器人操作系统2)中功能包(package)管理的教程,介绍了如何检查功能包的依赖、创建新功能包、列出可执行文件、列出所有功能包、查询功能包的位置和描述信息,以及为C++和Python功能包配置必要的文件。
679 0
|
机器学习/深度学习 开发工具 计算机视觉
YOLOv8 目标检测 | 自定义数据集
YOLOv8 目标检测 | 自定义数据集
|
存储 运维 安全
阿里云OSS的优势
【7月更文挑战第19天】阿里云OSS的优势
797 2