在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

简介: Jim Fan 对 Q* 的预测如今被最新发布的 o1 验证。他将 Q* 与 AlphaGo 类比,认为其通过自我对弈不断进步。AlphaGo 的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索及输赢判定。Jim 提出大语言模型 Q* 的四个组件:策略神经网络生成思维过程,价值神经网络评估每步正确性,搜索则通过思维链找到最优解,输赢判定基于数学问题答案。这一设计使模型能自我训练提升。o1 在数学和编程领域的出色表现验证了这一方法,但其能力是否能泛化至其他领域仍是通往 AGI 的关键。

去年 Jim Fan 对于 Q* 的预测,现在结合刚发布的 o1 来看基本上都是准确的!

Jim 将 Q* 和 AlphaGo 做了类比,猜测 Q* 可能类似于 AlphaGo,是通过与自己之前的版本进行对弈,自我对弈不断进步,甚至于架构都是类似的。

AlphaGo 的架构核心有四个组件:

策略神经网络(Policy NN,学习部分):负责选择下一步最有可能赢的走法

价值神经网络(Value NN,学习部分):评估当前棋局

蒙特卡洛树搜索(MCTS,搜索部分):模拟从当前位置开始落子的多种可能,类似于人类在算棋步(假如我放在 A 位置,那么对手可能下在哪几个位置,然后我再下一步怎么应对……)

输赢判定:根据围棋规则判定谁赢了。

这个架构的神奇之处在于整个训练过程不需要人类干预,可以像一个“永动机”一样,完全机器自己跟自己之前的版本学习,自己提升自己。这里面的关键在于围棋有很清晰的输赢判定规则,所以机器可以根据输赢结果知道自己选择路径的好和坏,从而可以对模型行为进行奖励或者惩罚,来提升模型的能力。

但对于大语言模型来说,难点在于:

它是快思考,没有类似于蒙特卡洛树搜索这样慢思考

很难判定生成结果的好坏

Jim 认为可以借助数学问题来训练大语言模型,并提出了他对于 Q* 的四个组件的猜想:

策略神经网络:由 GPT 生成解决数学问题的思维过程。(从 o1 的表现来看,这一步应该产生的是思维链)

价值神经网络:另一个 GPT,用于评估每个中间推理步骤的正确性概率。不仅仅对整体输出作出判断,而是对思考链中的每一步提供反馈。(现在 o1 能写出高质量的思维链和这个有很大关系)

搜索:语言模型的搜索不同于围棋中的搜索,这里对应的其实是推理,也就是借助思维链找出推理中的最优解。当然除了 CoT,还有思维树(Tree of Thought),将 CoT 和树搜索结合起来;还有思维图(Graph of Thought),将树进一步变成图。(至于 o1 是不是应用到了思维树和思维图,由于其没有公开,现在还不好肯定)

输赢判定:有几种可能 a) 根据推导数学问题得出的答案是否正确来判断 b) 根据生成的思维链,判断推导过程的结果,即使答案不对,但是推导过程正确也可以获得部分奖励 c) 将数学问题变成代码,执行程序运行结果。现在已经有 Lean 这样的工具可以将数学问题变成代码了。

按照 Jim 的这个设想,负责策略神经网络的大语言模型和负责价值神经网络的大语言模型,就可以相互训练相互促进,有了更强的策略大语言模型后,又可以帮助搜索组件探索出更好的搜索策略,就像 AlphaGo 那样成为一个“永动机”,自己一直训练自己。

现在来看,o1 在数学和编程领域表现突出,也侧面印证了它是充分利用了数学问题和代码问题来进行训练。

但问题在于仅仅使用数学领域和编程领域的数据训练,能力是否可以泛化到其他领域?这也是决定了 o1 这条路径能否通向通用人工智能 AGI 的关键。

从演示和体验来看,在文字解密领域也是很强的,不知道是否是能力泛化的结果,还是也有专门的训练。

另外 o1 在写作方面,表现不如 GPT-4o,也许就像 Jim 说的:

我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话或角色扮演方面会更有创造力。提升创造力本质上是人类的事情,因此我相信自然数据仍会胜过合成数据。

相关文章
|
Java 测试技术
HDU 1847 Good Luck in CET-4 Everybody!(规律,博弈)
Good Luck in CET-4 Everybody! Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 9934    Accepted Submission(s): 6433 Problem Description 大学英语四级考试就要来临了,你是不是在紧张的复习?也许紧张得连短学期的ACM都没工夫练习了,反正我知道的Kiki和Cici都是如此。
1275 0
|
1月前
|
人工智能 算法 自动驾驶
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获潜意识!
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
69 23
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
235 0
|
机器学习/深度学习 自然语言处理 搜索推荐
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉(2)
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
264 0
|
机器学习/深度学习
[Nowcoder] 2021年度训练联盟热身训练赛第六场 Mini Battleship | 深搜 回溯 乱搞
题意: 给定一个n ∗ n n * nn∗n的矩阵,其中在X XX上一定不可以放置船,而在O OO上面一定要放置船,在′ . ′ '.' 上面可以放置船,也可以不放,问将以下m mm艘船,大小均为1 ∗ x 1 * x1∗x,放置在矩阵中的方案数量 思路: 类似经典的八皇后问题, 首先将所有的m个都成功放置之后,并且所有的O均已成功放置船艘,此时的方案书就应该 + 1 注意船的形状一共有两种情况:横着和竖着,但是对于1 * 1的情况来说就只有一种状态,这里要特判掉 我们用j u d g e ( ) judge()judge()函数来判断是否能够是否可以放置该船,
140 0
ZT:增长气血的捷径——山药薏米芡实粥
http://jinjiduli.blog.hexun.com/8774220_d.html很多朋友患有慢性病,症状很多,从头到脚,好象就没有舒服的地方,病虽不是很危重,但总是牵延不愈,时好时坏,令人烦恼不堪。
989 0
|
机器学习/深度学习
[Nowcoder | UPC] 2021年度训练联盟热身训练赛第六场 Hopscotch | 最短路 bfs
题目描述 There’s a new art installation in town, and it inspires you… to play a childish game. The art installation consists of a floor with an n×n matrix of square tiles. Each tile holds a single number from 1 to k. You want to play hopscotch on it.
131 0
|
机器学习/深度学习 供应链 算法
北航与第四范式团队KDD Cup RL Track冠军方案:解密共享出行场景中的优化问题
作者:罗远飞 近日,全球顶级数据挖掘竞赛 KDD Cup 2020 已经正式画上圆满句号,KDD Cup 2020 RL Track 比赛结果也随之出炉,北京航空航天大学软件开发环境国家重点实验室童咏昕教授研究组与第四范式罗远飞组成的联合团队脱颖而出,斩获 KDD Cup 2020 强化学习挑战赛冠军。
631 0
北航与第四范式团队KDD Cup RL Track冠军方案:解密共享出行场景中的优化问题
2021年度训练联盟热身训练赛第一场——Early Orders(单调栈)
2021年度训练联盟热身训练赛第一场——Early Orders(单调栈)
69 0

热门文章

最新文章