文档备案控制台

开发者社区大数据与机器学习文章正文

Quiet-STaR:让语言模型在“说话”前思考

2024-03-30 890

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： **Quiet-STaR** 是一种增强大型语言模型（LLM）推理能力的方法，它扩展了原有的**STaR** 技术，允许LLM为其生成的文本自动生成推理步骤。通过令牌并行抽样和学习的思想令牌，模型能同时预测单词和相关原理。教师强化指导确保输出的正确性。Quiet-STaR提升LLM在句子预测、复杂问题解答和推理基准测试上的表现，降低困惑度，促进更流畅的生成过程。未来研究将探索视觉和符号理由，以及结合可解释AI以提高模型透明度和定制化。[\[arXiv:2403.09629\]](https://arxiv.org/abs/2403.09629)

大型语言模型(llm)已经变得越来越复杂，能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题，与人类不同LLM经常在推理中涉及的隐含步骤中挣扎，这回导致输出可能在事实上不正确或缺乏逻辑。

考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚，但关键在于理解初始条件和结论之间未说明的步骤。在交谈中也一样，我们依靠中间的假设和背景知识来理解所说的话。这种内隐的推理的能力是Quiet-STaR为LLM提供的能力。

自学推理器(STaR)

先前的研究已经发明了STaR：一种LLM通过从问答示例中推断基本原理来学习推理的技术。但是STaR仅限于特定的任务，并且需要访问预先存在的答案-基本原理对。而Quiet-STaR建立在STaR的基础上，使LLM能够为他们生成的任何文本生成基本原理，使推理过程更加通用和适用。

挑战与解决方案

实现Quiet-STaR有几个挑战。为每个单词生成基本原理在计算上是非常昂贵的。并且LLM本身就缺乏产生或利用这些内在思想的能力。最后Quiet-STaR不仅需要预测下一个单词，还需要考虑文本中更长期的依赖关系。

Quiet-STaR背后的研究人员通过一系列创新技术来解决这些挑战:

令牌并行抽样:采用了一种独特的抽样算法，其中LLM在文本旁边生成基本原理，一次一个令牌(单词)。

可学习的思想令牌:在生成的文本中引入了特殊的符号令牌来表示基本原理的开始和结束。随着时间的推移，LLM学会有效地使用这些令牌。

加强教师指导:使用了一种改进的教师指导技术来指导LLM确保正确的输出文本和相应的基本原理。

Quiet-STaR的流程如下：

Quiet-STaR的好处

1、Quiet-STaR有助于LLM在句子中预测具有挑战性的单词。这些理由提供了额外的上下文，使LLM能够做出更加明智的预测。

2、使用Quiet-STaR训练的LLM在直接回答困难问题方面表现出显著改进。理由引发的推理过程使LLM更有效地处理复杂问题。

3、Quiet-STaR导致推理基准（GSM8K和CommonsenseQA）上的性能提升，而无需在这些特定任务上进行任何微调。这表明LLM将其推理能力推广到未见问题，提升了零样本性能

4、Quiet-STaR明显降低了困惑度，这是一个指示预测序列中下一个单词难度的度量。这表明理由使得LLM的整体文本生成过程更加顺畅和高效。

总结

Quiet-STaR代表了LLM发展的重大进步。通过使它们能够生成理由并经过与文本生成相关的步骤进行推理，Quiet-STaR为更可靠、准确并且能够处理复杂任务的LLM铺平了道路。

目前的研究侧重于文本理由。未来的工作可以探索将其他形式的理由纳入其中，例如视觉或符号表示。将理由生成与可解释AI技术结合可以使LLM不仅能够生成理由，还能够向用户解释其推理过程，增进信任和透明度。Quiet-STaR可以通过将领域特定的知识源纳入到理由生成过程中来进一步针对特定任务进行定制。

论文地址：Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

https://arxiv.org/abs/2403.09629

文章标签：

自然语言处理

人工智能

测试技术

算法

Deephub

目录

相关文章

MCNU云原生

|

存储数据管理关系型数据库

分布式系统设计之套路Master-Slave架构

分布式系统设计之套路Master-Slave架构

MCNU云原生

1881 0 0

壹佰、

|

PyTorch 算法框架/工具

pytorch中torch.clamp()使用方法

pytorch中torch.clamp()使用方法

壹佰、

1465 0 0

pytorch中torch.clamp()使用方法

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能数据可视化

智谱AI新突破！GLM-Z1-Rumination：新一代沉思模型，推动AI助手进入"高智商+高自主"的新阶段

GLM-Z1-Rumination是智谱推出的新一代沉思模型，通过扩展强化学习训练实现长程推理能力，支持动态工具调用与自我验证机制，显著提升AI自主研究能力。

蚝油菜花

507 13 14

智谱AI新突破！GLM-Z1-Rumination：新一代沉思模型，推动AI助手进入"高智商+高自主"的新阶段

楠竹11

|

机器学习/深度学习

阿里妈妈首提AIGB并实现大规模商业化落地，将在NeurIPS 2024正式开源Benchmark

阿里妈妈提出AI-Generated Bidding（AIGB）新范式及DiffBid生成式竞价模型，突破传统基于强化学习的自动竞价方法局限。AIGB将自动竞价视为生成问题，通过捕捉复杂依赖关系，提升长期规划和随机环境中的稳定性和效果。DiffBid基于条件扩散建模，灵活生成满足特定目标的竞价轨迹，显著提升GMV和ROI。实验结果表明，DiffBid实现了2.81%的GMV增长和3.36%的ROI增长。然而，生成式建模的复杂性也带来了训练和调优的挑战。论文链接：https://arxiv.org/abs/2405.16141

楠竹11

581 9 9

Linux开发架构之路

|

存储测试技术网络安全

冲破内核限制：使用DPDK提高网络应用程序的性能（下）

冲破内核限制：使用DPDK提高网络应用程序的性能

Linux开发架构之路

1522 125 126

听风de歌

|

存储 API 调度

OpenStack核心组件Cinder

【8月更文挑战第4天】

听风de歌

813 9 9

李瑞利9527

|

运维 Cloud Native 安全

云栖大会，未来万物皆是计算机？

在这个云边端加速融合的时代

李瑞利9527

563 150 150

云栖大会，未来万物皆是计算机？

1941623231718325

|

数据采集供应链安全

利用大数据优化业务流程：策略与实践

【5月更文挑战第11天】本文探讨了利用大数据优化业务流程的策略与实践，包括明确业务目标、构建大数据平台、数据采集整合、分析挖掘及流程优化。通过实例展示了电商和制造企业如何利用大数据改进库存管理和生产流程，提高效率与客户满意度。随着大数据技术进步，其在业务流程优化中的应用将更加广泛和深入，企业需积极采纳以适应市场和客户需求。

1941623231718325

1004 1 1

易虹

|

Java 测试技术分布式数据库

从数据结构比较HBase的3种memstore实现方案

HBase的memstore目前存在3种实现：DefaultMemstore、CompactingMemstore、CCSMapMemStore，本文尝试从数据结构的角度对其进行比较。

易虹

1930 0 1

WalesKuo

|

运维监控数据可视化

架构设计60-落地原则02-故障隔离(故障的传播方式与隔离办法)

架构设计60-落地原则02-故障隔离(故障的传播方式与隔离办法)

WalesKuo

1088 0 0

架构设计60-落地原则02-故障隔离(故障的传播方式与隔离办法)

大数据与机器学习

热门文章

最新文章

阿里封神谈hadoop生态学习之路

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【技术实验】mysql准实时同步数据到Elasticsearch

数据仓库介绍与实时数仓案例

分布式快照算法: Chandy-Lamport

DataV接入ECharts图表库可视化利器强强联手

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

java工具：《传递日期格式及日期获取xx天前的时间字符串，打印输出20231205类似这种》

别再手搓集群了：用 Terraform + Helm 把数据平台“养成宠物”变“放养牛群”

Gartner：40% 的 AI Agent 项目注定被砍

AI辅助编程设计之道：从Spec到Code工程实践

三朵云的大数据江湖：AWS、GCP、Azure 托管服务到底谁更香？

手撕 Transformer：从原理到代码，一步步造一个“小型大模型”

java工具：《判断当前时间是否在数据库起止时间范围内，是，返回true；否，返回false》

java工具《获取两个日期之间的所有日期的开始时间集合》

动态图 vs 静态图：深度学习框架到底该怎么选？别再被“概念战”忽悠了

OpenClaw：当 AI 开始 “做事”，我们该如何选择

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

云安全中心：病毒查杀