AlphaGo被授职业九段,DeepMind将公开其所有版本细节

简介: 5 月 27 日,经过 3 小时 38 分钟的鏖战,209 手,柯洁盘中投子再负 AlphaGo,至此中国乌镇围棋峰会圆满告落。赛后,中国围棋协会为授予AlphaGo职业九段称号。

微信图片_20211128183541.jpg

AlphaGo 被中国围棋协会授予职业九段


柯洁完成可自己与 AlphaGo 的最后一战,而AlphaGo 也将推出围棋竞技赛场,被打造成围棋学习工具。


最后的战役:宁为「玉碎」


上午 10:30,比赛开始,柯洁如愿执白,DeepMind 黄士杰博士代替 AlphaGo 执黑。开局黑子还是在第一手下在了右下角,走了星小目。已丢两局的柯洁依然在努力思考每一步棋。职业棋手胡耀宇八段认为,柯洁这盘棋的策略非常明确,就是不拘泥于局部纠缠,放眼全盘大格局,四处挑起战斗。但是柯洁在 28 手点三三,追究黑棋,被黑棋简单处理后无应手。实战选择脱先,AlphaGo 判断清楚,灵活转身,取得相当优势。白棋 40 手飞点,被黑棋点角再度亏损。接下来中央白 90 有疑问,置下方大块不顾,造成两边无法兼顾。AlphaGo 挂到 99 手时,已是大势已去。柯洁虽然奋力搏杀,但始终无法逆转,最后阶段选择「玉碎」,在 209 手中大龙被吃,投子认负。


微信图片_20211128183544.jpg


纵观柯洁与 AlphaGo 的三局比赛,第一场,柯洁虽然只输 1/4 子,但是从整盘来看,没有赢的机会。但是第二盘虽然盘中认负,但在很多地方都看到了赢的机会,复杂的棋局能给柯洁带来奇迹。Hassabis 称这是是人机大战以来最势均力敌的一局,柯洁在 AlphaGo 的实时评估中多次出现完美的评分。

 

相较于前两场的平淡和精彩,柯洁对第三场的表现充满了深深自责。「我很遗憾自己没有下的好一点,不值得大家对我的赞美。」自责的同时,柯洁发自内心地大赞 AlphaGo,称其是一个「可怕、冷静、完美的棋手」。最后阶段的 AlphaGo 让柯洁感到前所未有的无奈。

 

「后面我想到的担心的棋,它一定会下,我想不到的地方,经过一番思考之后,我才知道这是好棋。我和它的差距太大了,以后也会越来越大。我对自己很遗憾,但是也为 AlphaGo 骄傲。」


峰会亮点


AlphaGo将推出竞技舞台,成为围棋学习工具,DeepMind陆续公开50局自我对弈棋局。


最后一场比赛结束后,DeepMind 正式宣布 AlphaGo 退出围棋竞技赛,将把 AlphaGo 打造成为学习围棋的工具。


该工具可以展示 AlphaGo 对围棋落子位置的分析,帮助大家更好地了解这个程序是如何思考的,最终让职业棋手以及爱好者可以从 AlphaGo 的视角来重新审视围棋。尤其让我们感到荣幸的是,柯洁同意成为我们的第一个合作者,和我们一起来分析他与 AlphaGo 的对局。我们很兴奋能听到他的精彩分析,同时也有机会分享 AlphaGo 的自我分析。


从现在开始,AlphaGo 的研发团队将把精力投入到其它重大挑战中,研发出高级通用算法,为科学家们解决最复杂的问题提供帮助,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。如果人工智能能够在上述领域发现新的知识和策略,那在这些领域的突破将十分可观。我们已经迫不及待地想看到这一切的发生。


另外 DeepMind 宣布将会与柯洁合作,分析本次棋局,并将分析过程和结果做成视频分享所有围棋爱好者。DeepMind 官方发言人称,「AlphaGo 的自我对弈是其最宝贵的财富,我们将会公布 50 局自我对弈。目前 DeepMind 官网上已经能下载 10 盘自我对弈棋局,以后每天都会更新」

 

事实上 DeepMind 已经比赛期间与棋手们分享了 AlphaGo 的三盘自我对对弈。团体赛棋手时越九段观棋时称仿佛对战双方仿佛来自遥远的未来。


DeepMind下半年将公布AlphaGo所有版本的技术细节


赛后,DeepMind 宣布下半年会发布论文公开所版本的 AlphaGo 的技术细节和架构,包括本次比赛中最新的技术,让开发者可以打造自己的 AlphaGo。目前已经很多开发者使用初版的 AlphaGo 在打造自己的 AI。AlphaGo 的未来是通用人工智能,Hassabis 相信,「这些通用算法能处理各个方面的问题。」


在 DeepMind 官方公开的资料中,David Silver 声称,「我们始终坚信 A.I. 拥有帮助全社会探索新知识的潜能,并让我们从中受益。而 AlphaGo 则让我们真切的感受到了这一点。对于围棋选手来说,AlphaGo 更像是获得灵感的工具,而不仅仅只是对手。通过 AlphaGo 的启发,棋手们能够在这项具有 3000 年历史的游戏中,尝试全新的思路与策略。」


Master已升级,无需从人机对战中找弱点,但训练未脱离人类棋谱

 

AlphaGo 研发负责人 David Sliver 称,今天的 AlphaGo 比年初时的 Master 又有了改进。去年与李世乭的第四局第 67 手棋中出现的弱点,现在已经不会再有了。新版本的 AlphaGo 已经无需人类提点就能发现自己的缺点并补足,但我们仍然没有让 AlphaGo 完全脱离人类棋谱。


AlphaGo 也有「情绪」

 

在人机配对赛中,收官阶段,古力一方的 AlphaGo 量出「resign(认输)」的牌子,遭到了古力的拒绝(AlphaGo 认输,人类有权拒绝,但如果人类选手认输,AlphaGo 则不能拒绝),之后 AlphaGo 的落子开始消极,「逼迫」古力认输。从这一点上看,人机配对赛中,AlphaGo 掌握全局。获胜方连笑在接受采访时称开局与 AlphaGo 配合有点困难,把队友带入了一条不归路,后面 AlphaGo 的表现逐渐稳健,感觉很像人类。


第一局收官最后,AlphaGo 是否有所保守

 

第一局,柯洁看似以 1/4 子微弱之差惜败。但事实上,AlphaGo 在收官阶段有所退让,Hassabis 在赛后发布会上解释道,第一盘最后,AlphaGo 在让自己获胜的概率最大化,这意味着有时候它会放弃一些点,这就是 AlphaGo 的策略:只为了赢得胜利,这是它的最主要的目的。

 

第二局是人机大战史上最势均力敌的一局,前半场看,双方都有赢的几率

 

在柯洁与 AlphaGo 的第二局比赛中,Hassabis 发 Twitter 称柯洁表现完美、难以置信。

 

在赛后的新闻发布会上,樊麾透露了 Hassabis 这句话的内因:在黑白两方在右上角缠斗的时候,柯洁和 AlphaGo 的下法和 AlphaGo 系统中预测的行棋步骤完全一样,这是机器认定的最优解。Hassabis 本人表示,「我们一直在后台关注整个比赛的情况,我们看到柯洁的表现非常完美,前 100 步是目前为止和 AlphaGo 与人类棋手之间最势均力敌的比赛。前 100 手两人差距非常小,我认为双方在前半部分都有机会。」

 

柯洁自评也是有遗憾,但非常满意。「我在赛中出现捂胸口的动作,是我觉得这棋有机会,在这一盘如果有人懂棋的话,因该会看到有一个劫,它不补是因为我认为它输不起这个劫,在中途我一度认为我距离胜利很接近了,但是因为太紧张的缘故,我下了不好的棋,我的心一直在跳,这或许是人类的缺陷吧。」

 

「我发挥得很好,对于布局我非常满意。但是中期在激烈的战斗时,很遗憾没有发挥好。我今天下的很热血沸腾,但还是紧张了。」

 


点击阅读原文,查看机器之心 GMIS 2017 大会官网↓↓

微信图片_20211128183551.jpg

相关文章
|
4月前
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
122 6
|
5月前
|
机器学习/深度学习 人工智能 数据可视化
斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3
【8月更文挑战第8天】AlphaFold 3作为AI领域的重大突破,革新了蛋白质结构预测。斯坦福博士通过图解详析了其内部机制,展示了多尺度建模与图神经网络技术如何提升预测精度。尽管存在数据依赖性和计算成本等挑战,AlphaFold 3仍极大地加速了生物学研究与药物开发进程。论文详情参见:https://www.nature.com/articles/s41586-024-07487-w
169 4
|
机器学习/深度学习 数据采集 算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
276 0
|
机器学习/深度学习 算法 机器人
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
136 0
|
机器学习/深度学习 人工智能 算法
卷起来了!DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题
卷起来了!DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题
121 0
|
机器学习/深度学习 人工智能 计算机视觉
ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注
ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注
138 0
|
监控 数据处理 开发工具
电子设计竞赛作品设计步骤
电子设计竞赛作品设计步骤
130 0
电子设计竞赛作品设计步骤
|
机器学习/深度学习 人工智能 算法
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
285 0
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
|
机器学习/深度学习 人工智能 算法
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
275 0
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
|
机器学习/深度学习 运维 算法
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
Facebook的研究人员近日提出了一种用于超参数调整的自我监督学习框架。这个新模型实现了准确预测的结果,估计超参数的速度快了6到20倍。
186 0
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架