丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
资深技术专家手把手带教
技术交流,直击现场
让创作激发创新
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
热门
暂无个人介绍
暂时未有相关通用技术能力~
暂时未有相关云产品技术能力~
阿里云技能认证
Jim Fan 对 Q* 的预测如今被最新发布的 o1 验证。他将 Q* 与 AlphaGo 类比,认为其通过自我对弈不断进步。AlphaGo 的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索及输赢判定。Jim 提出大语言模型 Q* 的四个组件:策略神经网络生成思维过程,价值神经网络评估每步正确性,搜索则通过思维链找到最优解,输赢判定基于数学问题答案。这一设计使模型能自我训练提升。o1 在数学和编程领域的出色表现验证了这一方法,但其能力是否能泛化至其他领域仍是通往 AGI 的关键。