在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

简介: Jim Fan 对 Q* 的预测如今被最新发布的 o1 验证。他将 Q* 与 AlphaGo 类比,认为其通过自我对弈不断进步。AlphaGo 的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索及输赢判定。Jim 提出大语言模型 Q* 的四个组件:策略神经网络生成思维过程,价值神经网络评估每步正确性,搜索则通过思维链找到最优解,输赢判定基于数学问题答案。这一设计使模型能自我训练提升。o1 在数学和编程领域的出色表现验证了这一方法,但其能力是否能泛化至其他领域仍是通往 AGI 的关键。

去年 Jim Fan 对于 Q* 的预测,现在结合刚发布的 o1 来看基本上都是准确的!

Jim 将 Q* 和 AlphaGo 做了类比,猜测 Q* 可能类似于 AlphaGo,是通过与自己之前的版本进行对弈,自我对弈不断进步,甚至于架构都是类似的。

AlphaGo 的架构核心有四个组件:

策略神经网络(Policy NN,学习部分):负责选择下一步最有可能赢的走法

价值神经网络(Value NN,学习部分):评估当前棋局

蒙特卡洛树搜索(MCTS,搜索部分):模拟从当前位置开始落子的多种可能,类似于人类在算棋步(假如我放在 A 位置,那么对手可能下在哪几个位置,然后我再下一步怎么应对……)

输赢判定:根据围棋规则判定谁赢了。

这个架构的神奇之处在于整个训练过程不需要人类干预,可以像一个“永动机”一样,完全机器自己跟自己之前的版本学习,自己提升自己。这里面的关键在于围棋有很清晰的输赢判定规则,所以机器可以根据输赢结果知道自己选择路径的好和坏,从而可以对模型行为进行奖励或者惩罚,来提升模型的能力。

但对于大语言模型来说,难点在于:

它是快思考,没有类似于蒙特卡洛树搜索这样慢思考

很难判定生成结果的好坏

Jim 认为可以借助数学问题来训练大语言模型,并提出了他对于 Q* 的四个组件的猜想:

策略神经网络:由 GPT 生成解决数学问题的思维过程。(从 o1 的表现来看,这一步应该产生的是思维链)

价值神经网络:另一个 GPT,用于评估每个中间推理步骤的正确性概率。不仅仅对整体输出作出判断,而是对思考链中的每一步提供反馈。(现在 o1 能写出高质量的思维链和这个有很大关系)

搜索:语言模型的搜索不同于围棋中的搜索,这里对应的其实是推理,也就是借助思维链找出推理中的最优解。当然除了 CoT,还有思维树(Tree of Thought),将 CoT 和树搜索结合起来;还有思维图(Graph of Thought),将树进一步变成图。(至于 o1 是不是应用到了思维树和思维图,由于其没有公开,现在还不好肯定)

输赢判定:有几种可能 a) 根据推导数学问题得出的答案是否正确来判断 b) 根据生成的思维链,判断推导过程的结果,即使答案不对,但是推导过程正确也可以获得部分奖励 c) 将数学问题变成代码,执行程序运行结果。现在已经有 Lean 这样的工具可以将数学问题变成代码了。

按照 Jim 的这个设想,负责策略神经网络的大语言模型和负责价值神经网络的大语言模型,就可以相互训练相互促进,有了更强的策略大语言模型后,又可以帮助搜索组件探索出更好的搜索策略,就像 AlphaGo 那样成为一个“永动机”,自己一直训练自己。

现在来看,o1 在数学和编程领域表现突出,也侧面印证了它是充分利用了数学问题和代码问题来进行训练。

但问题在于仅仅使用数学领域和编程领域的数据训练,能力是否可以泛化到其他领域?这也是决定了 o1 这条路径能否通向通用人工智能 AGI 的关键。

从演示和体验来看,在文字解密领域也是很强的,不知道是否是能力泛化的结果,还是也有专门的训练。

另外 o1 在写作方面,表现不如 GPT-4o,也许就像 Jim 说的:

我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话或角色扮演方面会更有创造力。提升创造力本质上是人类的事情,因此我相信自然数据仍会胜过合成数据。

相关文章
|
3天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
29天前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19262 29
|
30天前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
18801 20
|
29天前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17507 13
Apache Paimon V0.9最新进展
|
1月前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
18694 15
|
29天前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9910 9
|
1月前
|
消息中间件 弹性计算 关系型数据库
函数计算驱动多媒体文件处理解决方案体验评测
从整体解读到部署体验,多方位带你了解如何利用函数计算驱动多媒体文件处理,告别资源瓶颈。
10441 13
|
23天前
|
存储 JSON Serverless
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
参与体验活动生成西游人物图像,既有机会赢取好礼!本次实验在函数计算中内置了flux.1-dev-fp8大模型,通过函数计算+Serverless应用中心一键部署Flux模型,快速生成超写实图像。首次开通用户可领取免费试用额度,部署过程简单高效。完成部署后,您可以通过修改提示词生成各种风格的图像,体验Flux模型的强大绘图能力。
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
|
1月前
|
SQL 容灾 关系型数据库
让X不断延伸, 从跨AZ到跨Region再到跨Cloud
本文从“空间”这一维度,聊一聊PolarDB-X在跨空间部署能力上的不断发展和延伸,以及在不同空间范围下的高可用和容灾能力,并着重介绍一下最新的产品能力——GDN(Global Database Network)。
7881 8
|
1月前
|
缓存 测试技术 调度
PolarDB-X的TPC-H列存执行计划
本文从官方的角度逐条解析PolarDB-X在TPC-H列存执行计划的设计要点。这些要点不仅包含了各项优化的原理,还提供了相关的证明与代码实现,希望帮助读者更深入地理解PolarDB-X的列存优化器。
7874 12