Google DeepMind团队公布玩游戏比人厉害的AI如何做出

简介:

Google DeepMind团队在《自然》杂志发表论文,公布玩游戏比人厉害的AI是如何做出来的。


电脑会玩游戏已经不算稀奇,比方说,一般人玩棋类游戏已经玩不过计算机了。但如果事先不告诉计算机应该怎么玩,而只是给它提供这三样东西:控制器、显示器、游戏得分,让它看着显示器的显示控制控制器,然后要求它尽可能得高分,那基本上大部分的 AI 就一筹莫展了。


所以,当 2013 年 12 月 DeepMind 的团队首次展现他们靠不断试错学习最后成为击败人类专业玩家的游戏高手AI时,许多在场的 AI 专家都感到有些震惊。这些 AI 靠着对游戏视频的观察来寻找出模式,然后操作控制器,并获得得分的反馈结果(高分奖励)。


在反馈中不断调整自己的控制,最后 AI 完全靠自学而不是编码学会了玩 49 种 Atari 视频游戏,其中 43 种游戏玩得比之前的 AI 都要好;并在 23 种游戏中击败了人类的职业玩家。这些游戏当中,简单的弹球和拳击游戏 AI 玩得最好,但是像经典的消砖块 Breakout 游戏也能玩得很好,甚至还学会了打开一条通道让球跑到后面去消掉砖块(参见下面视频,注意观察 AI 如何在游戏中改进自己的策略),这种技巧往往只有老练的玩家才会。许多研究人员 1 年后对他们如何做到仍感到困惑不已。不过现在他们不用困惑了,因为 DeepMind 团队现在已经在《自然》杂志上公布了自己的研究成果:Human-level control through deep reinforcement learning—通过深度强化学习实现人类水平的控制。


总的说来,DeepMind 的 AI 的设计核心是如何让计算机自行发现数据中存在的模式。其解决方案是深度神经网络与强化学习等方法的的结合。AI 并并不知道游戏规则,而是用深度神经网络来了解游戏的状态,找出哪一种行为能导致得分最高。尽管利用模拟神经网络来教电脑玩游戏(如军棋游戏)的方法已经使用了几十年,但是从未有人能像 DeepMind 团队那样以如此有用的方式结合到一起,智能系统普朗克学院的Bernhard Schölkopf主任称,其方案展现出了令人印象深刻的可适应性。


这一方面是得益于现在计算能力的提高使得 AI 可处理规模要大得多的数据集,要知道,观察 Atari 游戏相当于每秒处理 200 万像素的数据。另一方面则是得益于 DeepMind 结合了强化学习来训练 AI,而且是在高维度感觉输入中采用的端到端强化学习。相对于以往计算机会玩的游戏,如国际象棋等,这次计算机玩的游戏更接近现实世界的混沌状态。Google的智能设计师Demis Hassabis称,这是第一种能在一系列复杂任务当中与人类表现相当的算法。


那么 Google 会不会用这种 AI 来分析自己的大规模数据集呢?Hassabis 并没有给出任何肯定的说法,但称该系统对任何连续性决策任务都有用。如果我们把 Google 收集的用户数据比作像素,把广告收入比作得分的话,DeepMind 的 AI 系统一样也可以用在 Google 的核心广告业务。让 AI 去置放的广告,点击率越高就给它更高的分数,这样 AI 能够不断演进优化广告的投放算法。而伦敦大学金斯密斯学院的 Michael Cook 甚至给出了确切的数字,称 Google 已经在 7 款产品中采用了 DeepMind 的技术。其中会不会包括 Google 研发的自动汽车呢?也许用不了多久我们就能感受到有了那颗 DeepMind 支撑的产品的表现差异了。


原文发布时间为:2015-02-27

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
2月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
46 1
|
21天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
129 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
20天前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
23天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
38 7
|
1月前
|
人工智能 测试技术 API
成功注册Google的SerpAPI实现AI Agent的tool
成功注册Google的SerpAPI实现AI Agent的tool
44 5
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
57 3
|
2月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第16天】北京大学张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可使攻击者通过特定数据样本误导AI诊断,引发误诊风险。此发现引起广泛关注,强调了医疗AI安全评估的重要性。
63 4
|
2月前
|
Web App开发 人工智能 前端开发
Google 浏览器中的 AI 魔法 — window.ai
本文介绍了如何在 Chrome Canary 中启用并使用设备端 AI 功能。通过下载 Chrome Canary 并启用相关 API,你可以在本地运行 AI 模型,无需互联网连接。文章详细讲解了设置步骤、确认 AI 可用性的方法以及如何使用 `window.ai` 进行文本会话。虽然目前的性能和功能还有待提升,但这一技术为未来的前端开发和智能应用提供了无限可能。
101 0
|
3月前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
59 3
|
4月前
|
人工智能 自然语言处理 小程序
【AI】Gemini:听说GPT-4你小子挺厉害
谷歌推出新AI模型Gemini Pro,支持中文并具备多模态处理能力,涵盖文本、图像、音频、视频和代码。本文通过五个问题对比Gemini Pro与ChatGPT-4的表现,包括绘画、数学题解答、成语解释、天气查询及奥运冠军名单。结果显示两者各有优势,Gemini Pro在成语解释和天气查询方面略胜一筹,而ChatGPT-4在绘画方面表现更好
56 0
【AI】Gemini:听说GPT-4你小子挺厉害