AlphaGo Zero:从头开始学习

简介: AlphaGo zero这几天在人工智能领域掀起了不小的风浪,AlphaGo zero到底是否能够达到我们所说的通用人工智能的标准呢?

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud


人工智能研究在语音识别和图像分类再到基因组学和药物发现等各个领域都取得了快速进展。但在许多情况下,这些都是利用大量人力资源和庞大的数据支撑才完成的专业工作。

然而,对于某些问题,知识和数据的成本太高,太不可靠或者根本无法使用。因此,AI研究的长期目标是绕开这个困境,创造算法,在没有人工投入的情况下,挑战最具挑战性的领域实现超越人类的表现。在我们最近发表在Nature杂志上论文,我们展示了实现这一目标的一个小小的进步。

58e475c94cbfeb6dd5866678f2e20e256e43dfa5

本文介绍了最新发展AlphaGo版本的AlphaGo zero,AlphaGo是第一个在围棋的古代中国游戏打败世界冠军的计算机程序。AlphaGo是强大的,但是AlphaGo zero是更强大的,可以说是历史上最强的围棋玩家。

7b0d699444c9ada69328acdfa159bceee2c8cb6f

以前版本的AlphaGo最初是接受了数千业余和专业人的游戏训练,学习如何玩围棋。而AlphaGo Zero跳过这一步,整个学习过程是通过自己玩游戏,从完全随机的游戏开始。这样做的时候,它很快超过了人类的水平,而且还击败了以前发布的冠军版本的AlphaGo。

AlphaGo zero通过使用一种新颖的强化学习方法,AlphaGo Zero成为自己的老师。AlphaGo zero从一个不知道围棋游戏的神经网络开始,然后,通过将这个神经网络与强大的搜索算法相结合,自身与自身进行游戏。当它自己与自己下棋的过程中,神经网络被不断的调整和更新,以预测下一手以及最终的赢家的布局。
然后将这个更新完毕的神经网络与搜索算法重组,创建一个新的、更强的AlphaGo版本的AlphaGo Zero,并且让过程再次开始。在每次迭代中,AlphaGo zero系统的性能都会提高一小部分,自我游戏的质量也提高了,这导致了越来越精确的神经网络和更强的AlphaGo Zero版本时代的出现。

这个版本的AlphaGo zero比以前版本的AlphaGo更强大,因为它不再受到人类知识的限制。相反,它还可以从世界上最强的玩家:AlphaGo那里学习。

它也有不同于以前的版本在其他方面。

·              AlphaGo Zero仅使用围棋棋盘上的黑白石头作为输入,而AlphaGo的以前版本包含少量手工设计。

·              它使用一个神经网络而不是两个。AlphaGo的早期版本使用“策略网络”来选择下一手的落点以及一个“价值网络”来预测落在每个位置游戏的获胜的概率。这两个网络被完美的结合在AlphaGo Zero中,这使其能够进行更有效地进行训练和评估。

·              AlphaGo Zero不使用其他围棋程序使用的快速随机游戏来预测玩家将子落在何处才能获胜。相反,它依靠其高质量的神经网络来评估位置。

所有这些差异都有助于提高系统的性能并使其更为通用。而且,算法的改变使得系统更加强大和高效。

dd023bbef1348316e9e832ea0556073e9e1e4925

经过短短三天的自我训练,AlphaGo Zero就打败了以前发布的AlphaGo版本经过40天的自我训练,AlphaGo Zero变得更强大,超越称为“大师”的AlphaGo版本,AlphaGo大师版本是击败了世界上最好的围棋选手及世界排名第一的柯洁

80ccd9b5ff47fada2c51a4fce4cbe2c7749eacda

在数以百万计的AlphaGo和AlphaGo对战中,系统从零开始逐渐学习了围棋游戏,在短短几天的时间里积累了数千年的人类知识。同时,AlphaGo Zero还发现了新的知识,开发非常规的策略和创新了新举措,它超越了在与李世石和柯洁的比赛中所发挥的新技术。

e5f5097087765b1e37a0fa47164e5f7925da42d1

这些创造力的瞬间使我们相信,人工智能将成为人类智慧,帮助我们与我们的使命,解决一些人类正面临着最重要的挑战。

虽然这些还在早期,但AlphaGo Zero是迈向这一目标的关键一步。如果可以将类似的技术应用于其他结构化问题,如蛋白质折叠,减少能源消耗或寻找革命性的新材料,这些突破将对社会产生积极的影响。

a3b2bd84bc1c238e2d2d78cde8b26b2d24645976

大卫·席尔瓦:AlphaGo项目首席研究员在接受采访时所说

f8b05609c991885bbe809bb873e80d745d955a28

AlphaGo Zero是世界上最强大的围棋程序,胜过以往所有的AlphaGo版本。尤其值得一提的是,它击败了曾经战胜世界围棋冠军李世石的AlphaGo版本,成绩为100比0。过去所有版本的AlphaGo都从利用人类数据训练开始,它们被告知人类高手在这地方怎么下,在另一个地方怎么下。AlphaGo Zero不使用任何人类数据,而是自我学习,完全从自我对弈中学习,凭借自我学习取得比通过人类数据学习更好的成绩是因为,首先AlphaGo的对手总是和它正好水平一致,所以它从非常基础的水平开始,从非常随机的招式开始。但是在学习的过程中每一步,它的对手或者可以叫陪练,都正好被校准为匹配其当前水平。一开始,这些对手非常弱,但是之后渐渐变得越来越强大,人们一般认为机器学习就是关于大数据和海量计算。 但是,我们从AlphaGo Zero中发现,算法比所谓计算和数据可用性更重要。事实上,我们在AlphaGo Zero上使用的计算比在过去AlphaGo版本上使用的少一个数量级,但是它的性能更强大,因为我们使用了更多原理和算法,我可以代表我们的团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期。它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的AlphaGo,成为世界上最强大的围棋程序。该全系统完全从零开始训练,从随机招式开始,建立于基本原理,来弄清怎样从零学围棋,AlphaGo Zero最重要的理念是它完全从零开始学习,它意味着它完全从一块白板开始,仅仅依靠自我对弈来学习,不依赖于任何人类知识,人类数据,人类案例,人类特征,或是人类的介入,。它完全通过基本原理去探索任何下围棋,从零学对于DeepMind的目标和雄心而言是非常重要的,

因为如果你可以实现从零学习,你就拥有了可以从围棋,移植到其他任何领域的媒介,你从所处的细分领域中解放出来,通过一个可以应用于在任何地方的普遍算法。对于我们来说打造AlphaGo不是为了出来击败人类, 而是为了探索研究科学的意义和让一个程序能够自我学习知识是什么?所以我们开始发现,AlphaGo Zero不仅仅是重新发现,人类偏好的模式和开口以及人类在角落用固定模式,它还会审视这些并进行更多的自主探索,最终放弃那些偏好来自主做出人类还不知道或无法实现的变化,所以我们可以说真正发生的是在非常短的时间内,AlphaGo Zero理解了人类数千年积累的对围棋的认知,它进行分析,开始审视这些知识,并自主探索出更多的东西,有时候它的选择实际上超越并带来的一些人类现阶段尚未发现的东西,产生出在很多方面富有创造力的,新奇的知识,对于AlphaGo Zero已经达到的水平,我们非常激动,最让我们激动的是看它能在现实世界里走多远,事实上我们已经看到一个程序可以在像围棋这样的,复杂并具有挑战性的领域中达到很高水平,这意味着我们能够开始着手为人类解决最困难的问题。

从零开始的训练

DeepMind发表的论文中写到,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世石的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4TPU,而击败李世乭的AlphaGo使用了48TPU

译者认为:AlphaGo Zero这种完全不依赖于人类数据的创新是有其根本因素的,因为围棋的下法是有一定的规则的,只要是在规则之内AlphaGo Zero自己可以和自己模拟,进行创造新的下法。举例来说:一个学生学习了基础知识之后,可以利用这些基础知识解决一系列复杂的问题,但是这些复杂得多问题其实还是限制于这些基础知识不断组合上,一旦超出了基础知识的界限,那么学生就不会做题了。这就是当前版本的AlphaGo Zero的核心。但是,不得不承认的是,这种方式极大的释放了人工智能在围棋领域的创造性,人类可以从中获得更多。

AlphaGo Zero证明了纯强化学习的方法是可行的,注意这里的纯强化学习其实强化的是基础,这跟我们人类的思维是相通的。Deepmind团队也称,AlphaGo zero对结构化知识的领域更适用,其实与其说是结构化,不如说成是规则化。因为如果说结构化的话,那么文本翻译也属于结构化,但是这个领域没有标注化,它还是需要大量数据来支撑的。

论文的共同第一作者是David SilverJulian SchrittwieserKaren Simonyan

关于这篇论文,可以直接从这个地址下载

DeepMind还放出AlphaGo Zero80局棋谱,下载地址在此

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织整理。

文章原标题:《AlphaGo Zero-learning-scratch

作者:

b12f5704b2e4ec708332e78342d4446afd167458

译者:虎说八道,小学生一枚。审校:主题曲哥哥。

文章为简译,更为详细的内容,请查看原文

相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
如何在一夜之间成为模型微调大师?——从零开始的深度学习修炼之旅,让你的算法功力飙升!
【10月更文挑战第5天】在机器学习领域,预训练模型具有强大的泛化能力,但直接使用可能效果不佳,尤其在特定任务上。此时,模型微调显得尤为重要。本文通过图像分类任务,详细介绍如何利用PyTorch对ResNet-50模型进行微调,包括环境搭建、数据预处理、模型加载与训练等步骤,并提供完整Python代码。通过调整超参数和采用早停策略等技巧,可进一步优化模型性能。适合初学者快速上手模型微调。
128 8
|
4月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
61 1
|
4月前
|
人工智能 JSON 自然语言处理
🔍深度揭秘!如何用提示词驾驭生成式大模型,让你的创意无限飞🌈
【8月更文挑战第1天】在AI风潮中,生成式大模型因出色的内容创造能力备受创意工作者青睐。但如何巧妙运用提示词,激发模型潜力,仍是挑战。本文通过问答形式揭秘提示词技巧:理解其定义、掌握设计方法(明确目标、具象描述、考虑模型特性)、评估其影响力及调整策略(细化描述、变换风格、调节参数),并分享实用贴士,助您成为驾驭AI创作的高手。
221 7
|
7月前
|
机器学习/深度学习 监控 自动驾驶
【传知代码】从零开始搭建图像去雾神经网络-论文复现
本文介绍了基于集成学习的双分支非均匀去雾神经网络的复现,该网络由迁移学习子网和数据拟合子网组成,分别处理全局表示和数据拟合。网络使用Res2Net作为编码器,并结合通道和像素注意力模块。代码可在提供的链接下载。网络在交通监控、自动驾驶、航海和目标跟踪等领域有广泛应用,通过提升图像质量来提高系统性能。实验在O-Haze、I-Haze和NH-Haze数据集上进行,展示了网络在去除雾霾方面的效果,尽管存在细节模糊和色彩饱和度低的问题。
176 1
|
6月前
|
数据采集 算法 知识图谱
如何让大模型更聪明?
如何让大模型更聪明?
82 0
|
机器学习/深度学习 人工智能 自动驾驶
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人
|
机器学习/深度学习 存储 人工智能
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
AlphaFold1是一种人工智能模型,由DeepMind公司开发,用于预测蛋白质的三维结构。它是基于深度学习的方法,使用了神经网络来预测蛋白质的结构。AlphaFold1的预测准确率非常高,已经被证明可以在很短的时间内预测出数千个蛋白质的结构。 AlphaFold1的核心思想是将蛋白质的结构预测问题转化为一个优化问题。具体来说,它使用了一种称为“残基-残基接触预测”的方法,通过预测蛋白质中不同残基之间的接触情况来推断出蛋白质的三维结构。这种方法需要大量的训练数据和计算资源,但是它可以在很短的时间内预测出高质量的蛋白质结构
288 0
|
机器学习/深度学习 人工智能 自然语言处理
从零开始训练一个人工智障女友
从零开始训练一个人工智障女友
151 0
|
机器学习/深度学习 编解码 人工智能
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
115 0