DeepMind让AI系统拥有记忆,教机器学习系统举一反三打游戏

简介:
本文来自AI新媒体量子位(QbitAI)

机器学习系统现在适用于很多类型的任务,但它们也有一个共同的问题:学得不一定快,但忘得很快。

比如说,DeepMind训练神经网络玩雅达利游戏时,给系统输入Space Invaders的训练数据,它就学会了玩Space Invaders;再输入打砖块的训练数据,它就学会了打砖块,却忘了Space Invaders该怎么玩。

最近,DeepMind和伦敦帝国理工学院的研究人员已经创建了一种算法,允许该系统的神经网络自主学习,保留信息,并再次使用它。

相关论文发表在《美国国家科学院院刊(PNAS)》,摘要地址:

http://www.pnas.org/content/early/2017/03/13/1611835114.abstract

全文PDF:
http://www.pnas.org/content/early/2017/03/13/1611835114.full.pdf

以下是对DeepMind这项新进展的介绍,
来源:新浪科技 ID:techsina

人工智能(AI)系统能够学会一款雅达利(Atari)游戏,然后利用这些知识再学习另一款游戏。

2014年当DeepMind的机器学习系统学会玩雅达利游戏时,突然引人瞩目地跃入公众视线。这套系统可以把游戏打通关,得分比人类还高,但却不记得它是怎样做到的。

该系统玩每一款雅达利游戏时,都要单独创建一组神经网络,因此,如果不能同时为人工智能输入《空间入侵者》(Space Invaders)和《打砖块》(Breakout)的信息,就不能在同一个系统上玩这两款游戏。现在,一组DeepMind和伦敦帝国理工学院的研究人员已经创建了一种算法,允许该系统的神经网络自主学习,保留信息,并再次使用它。

“以前我们有一个系统可以学着玩任何游戏,但它一次只能学会玩一款游戏,“DeepMind的研究科学家詹姆斯·基尔克帕特里克(James Kirkpatrick)说,他是该系统最新研究论文的主笔。“在此我们展示了一个系统,可以一个接一个地学习玩几个游戏。”

这篇论文发表在美国国家科学院学报上,解释了DeepMind的AI系统如何运用有监督学习和强化学习测试等方式来不断学习。该公司的博客文章也对此做了说明。

计算机科学家在论文中写道:“不断完成学习任务而不遗忘的能力是生物和人工智能的核心组成部分。”基尔克帕特里克说,如今,神经网络和人工智能中的“重大缺陷”已无法从一个任务传递到下一个任务。

研究小组表示,已经能够在“突触整合”的基础上展示“持续学习”,在人脑中,这个过程被描述为“学习和记忆的基础”。

为了让AI系统拥有记忆,DeepMind研究人员开发了一种名为“弹性权重固化”(EWC)的算法。论文指出,“我们的方法是通过有选择性地减慢高权重任务的学习速度来记住旧的任务。”基尔克帕特里克解释说,该算法可以选择在游戏中成功通关的做法,并把最有用的部分保留下来。

“我们只允许它们(在游戏间)非常缓慢地做出改变,”他说,“如此一来,我们就有了学习新任务的空间,但是我们所进行的改变不会覆盖我们以前学过的东西。”

为了对算法进行测试,DeepMind采用了深度神经网络,它被称为Deep Q网络(DQN),以前曾被用来征服雅达利游戏。然而,这一次DQN使用的是“增强的”EWC算法。研究人员随机选择了十款雅达利游戏来测试算法和神经网络,AI的表现足以与人类玩家相媲美。每款游戏被玩过2000万次之后,系统自动切换到下一款雅达利游戏。

“以前,DQN不得不单独学习如何玩一款游戏,”文章写道。“DQN在EWC的助力下功能大增,可以不再经历灾难性的遗忘过程,连续不断地学会玩很多游戏。”

从本质上讲,使用EWC算法的深度神经网络能够学习玩一个游戏,然后将已学会的知识加以转换,再去玩下一个全新的游戏。

然而,这套系统还不完美。虽然它能够学习以前的经验,并保留最有用的信息,但它的神经网络无法像只完成一个游戏那样运转良好。

“当下,我们已经证明了AI系统能够不断学习,但我们还无法证明它的学习效率有所提高,”基尔克帕特里克说。“下一步我们将利用和规范连续学习,尝试和改善它在现实世界的学习活动。”(斯眉)

原文发布时间:2017-03-15
相关文章
|
2月前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
255 48
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
2月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
97 26
|
1月前
|
人工智能
AI对话网站一键生成系统源码
可以添加进自己的工具箱,也可以嵌入自己博客的页面中,引流效果杠杠的,新拟态设计风格,有能力的大佬可以进行二开,仅提供学习,用户可输入网站名称、AI默认的开场白、AI头像昵称、AI网站中引流的你的网站等等内容,所有生成的网页全部保存到你的服务器上
64 27
AI对话网站一键生成系统源码
|
4天前
|
人工智能 JavaScript 前端开发
【最佳实践系列】AI程序员让我变成全栈:基于阿里云百炼DeepSeek的跨语言公告系统实战
本文介绍了如何在Java开发中通过跨语言编程,利用阿里云百炼服务平台的DeepSeek大模型生成公告内容,并将其嵌入前端页面。
|
14天前
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
37 9
|
16天前
|
人工智能 芯片 内存技术
谷歌Deepmind的CEO称Deepseek的AI模型是中国“最好的作品”,但炒作“夸大其词”
谷歌Deepmind的CEO称Deepseek的AI模型是中国“最好的作品”,但炒作“夸大其词”
|
2月前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
144 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
13天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
|
15天前
|
存储 人工智能 搜索推荐
Memobase:开源AI长期记忆系统,让AI真正记住每个用户的秘密武器
Memobase 是一个开源的长期记忆系统,专为生成式 AI 应用设计,通过用户画像和时间感知记忆功能,帮助 AI 记住、理解并适应用户需求。
100 0
|
2月前
|
人工智能 自然语言处理 数据可视化
校企合作|TsingtaoAI携手潍坊学院,共建AI驱动的党建信息化系统
TsingtaoAI与潍坊学院近日达成合作,正式签署《人工智能党建信息化系统开发》技术开发合同,计划在未来两年内联合开发一套集党员教育、党务管理、党建活动智能化以及数据可视化于一体的智能党建系统。本次合作将充分结合TsingtaoAI在AI大模型领域的技术优势和潍坊学院的学术资源,为推动党建工作的数字化、智能化和高效化注入新的动力。
68 10

热门文章

最新文章