ICML 2024:Transformer究竟如何推理?基于样例还是基于规则

简介: 【7月更文挑战第12天】ICML 2024研究表明Transformer模型在解决数学问题时倾向于基于样例而非规则的推理。通过规则遵循微调(RFFT),模型被教会遵循规则,实现从1-5位到12位加法的高精度泛化,提升40%以上。论文探讨了提升AI在数学推理上的潜力。[arxiv.org/abs/2402.17709](https://arxiv.org/abs/2402.17709)**

在人工智能领域,Transformer模型因其在各种复杂任务中的出色表现而备受关注。然而,尽管它们在许多方面取得了成功,但这些模型在处理一些对人类来说简单直观的数学问题时仍然存在困难,例如加法。

对于人类来说,学习基本的加法规则并应用于任何长度的新问题是相对容易的。然而,Transformer模型在执行相同操作时却遇到了困难。相反,它们可能会依赖在训练语料库中看到的类似情况来解决问题。

为了探索Transformer模型在数学问题上的推理机制,研究人员提出了两种不同的推理机制:“基于规则的推理”和“基于样例的推理”。基于规则的推理对于获得系统泛化能力至关重要,因此研究人员旨在确定Transformer模型在数学问题上使用的是哪种推理机制。

通过在五个数学任务上进行精心设计的干预实验,研究人员证实了Transformer模型在使用基于样例的推理,无论是否使用了草稿纸。这与之前的观察结果一致,即Transformer模型使用子图匹配/快捷学习来进行推理。

为了减轻这个问题,研究人员提出了一种称为规则遵循微调(Rule-Following Fine-Tuning,RFFT)的技术,以教授Transformer模型进行基于规则的推理。具体而言,他们向输入中提供明确的规则,然后指导Transformer模型逐步背诵和遵循这些规则。

通过RFFT,研究人员成功地使在1-5位加法上微调的大型语言模型(LLMs)能够泛化到最多12位加法,准确率超过95%。这比使用草稿纸的方法提高了40%以上。这一显著的改进表明,明确教授LLMs使用规则可以帮助它们学习基于规则的推理,并在长度上更好地泛化。

该研究还讨论了Transformer模型在其他数学任务上的表现,并提出了未来的研究方向,以进一步提高这些模型在数学问题上的推理能力。

论文地址:https://arxiv.org/abs/2402.17709

目录
相关文章
|
6月前
|
自然语言处理
论文介绍:语言模型如何解释语言模型中的神经元
【2月更文挑战第22天】论文介绍:语言模型如何解释语言模型中的神经元
39 2
论文介绍:语言模型如何解释语言模型中的神经元
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
76 7
|
机器学习/深度学习 自然语言处理 安全
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型(1)
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型
144 0
|
6月前
|
机器学习/深度学习 自然语言处理 数据挖掘
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
154 0
|
机器学习/深度学习 编解码 自然语言处理
论文阅读笔记 | Transformer系列——Swin Transformer
论文阅读笔记 | Transformer系列——Swin Transformer
1194 0
论文阅读笔记 | Transformer系列——Swin Transformer
|
机器学习/深度学习 人工智能 物联网
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
|
机器学习/深度学习 自然语言处理 算法
【论文解读】文本分类上分利器:Bert微调trick大全
【论文解读】文本分类上分利器:Bert微调trick大全
903 0
【论文解读】文本分类上分利器:Bert微调trick大全
|
机器学习/深度学习 自然语言处理 数据挖掘
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型(2)
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型
245 1
|
机器学习/深度学习 移动开发 自然语言处理
深度学习进阶篇-预训练模型1:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解
深度学习进阶篇-预训练模型1:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解
深度学习进阶篇-预训练模型1:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解
|
机器学习/深度学习 存储 编解码
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
121 0
下一篇
无影云桌面