盘点丨DeepMind 2017年工作回顾:从AlphaGo Zero到Parallel WaveNet

简介: 今天DeepMind官方博客发布文章-DeepMind's work in 2017: A Year In Review 。过去一年,从AlphGo到WaveNet,DeepMind取得了一系列重大研究成果,成为AI领域的大明星。

引言

今年7月,世界排名第一的围棋选手柯洁在连胜20场比赛后发表讲话。这距离上次他在中国乌镇未来围棋峰会上与AlphaGo对弈已有两个月。他表示:“ 在与AlphaGo比赛之后,我彻底反思并重新思考了这次比赛,现在我可以看到这样的反思对我有很大的帮助。我也希望所有的棋手能够去思考AlphaGo下棋的思想和技法,这些都是很有意义的。虽然是输了,但我发现围棋的变化确实太大了,它还在不停的进步,我也希望自己能不断的进步,在自己的顶峰时期多待几年。”

fd0b8ec4c6bb4ac780e755e4a2111d4332e769b9

图1,未来围棋峰会是一个为期5天的盛会,它有各式各样的比赛形式,包括两人对弈,团队对弈以及与柯洁1对1对弈。

柯洁可以说是围棋领域大师级的人物,听到他的上述发言使我们倍感荣幸。其实我们也受到柯洁的启发,他的这些感想暗示未来社会可以使用AI作为发现探索的工具,发现新知识,增加人们对世界的理解。特别是在机器辅助科学方面,我们希望人工智能系统能够帮助人们在应对气候变化和药物发现方面取得进展,或者能够寻找到复杂的新型材料以及帮助缓解医疗系统的压力。这种潜在的社会效益便是我们建立DeepMind的初衷,我们很高兴在应对基础科学挑战以及AI安全和伦理方面取得了持续的进展。

我们在DeepMind上所采用的方法受到神经科学的启发,旨在帮助人们在一些关键领域(如想象力,推理,记忆和学习)取得进展。以想象力为例:这种人类独有的能力在我们的日常生活中起着至关重要的作用,它使我们能够规划和推理未来,但这种能力对计算机来说却是极具挑战性的。我们以后将继续努力解决这个难题,今年引入了imagination-augmented agents(想象增强代理),它可以从环境中提取相关信息来帮助规划未来的工作

我们训练了一个神经网络来演示如何自动地控制模拟环境中的各种简化身体,这种方法受神经科学启发,也是我们工作中最受欢迎的演示之一。这种复杂的运动控制是人体智能的标志,也是我们研究计划的重要组成部分。虽然由此产生的动作有时候是狂野的,有时是笨拙的,但也取得了惊人的成功,而且还可以用于娱乐观赏。

4b33c78a4f7f56c04f579c03e809e3693fd69317

图2,DeepMind运动控制示意图,链接:https://www.youtube.com/watch?v=gn4nRCC9TwQ

“我们知道技术不是价值中立的。我们不能在基础研究方面取得进展的同时,而不对我们技术的伦理和社会影响负责。”

此外,我们在生成模型领域也取得了进展。就在一年前,我们提出了WaveNet,这是一个产生原始音频波深度神经网络,它能够产生比现有的技术更好的且更逼真的模拟语音。那个时候,这个模型还是一个研究原型,而且直接用在消费产品中计算复杂度又太高。在过去的12个月里,我们的团队创造了一个新模型,将WaveNet的训练速度提高了1000倍。在10月份,我们发布了这个新的并行WaveNet(Parallel WaveNet)。现在我们已经将它部署在实际应用中,在谷歌助手(Google Assistant)中生成英语和日语的声音。

WaveNet的改进只是我们竭力使AI系统的构建、训练和优化变得更容易的其中一例。今年我们发布的其他技术,如分布式强化学习、基于总体的神经网络训练、新的神经结构搜索方法,同样使系统更容易构建、更精确和更快地优化。我们同时花了大量的时间创造新的、具有挑战性的环境来测试我们的算法,这其中就包括我们与暴雪合作开发“星际争霸2”。

我们知道技术不是价值中立的。我们不能在基础研究方面取得进展的同时,而不对我们技术的伦理和社会影响负责。这推动了我们在一些关键领域的研究,比如在深度学习的可解释性方面,我们一直在探索新的方法来理解和解释我们的系统。我们的团队也致力于开发切实可行的方法,来确保我们在享受未来科技带来的便利同时保持这些系统始终在人类有效地控制范围之内,这就是为什么我们有一个成熟的技术安全团队的原因。

95b15b394756e3119b57fd5f192585115c4160bf

图3,我们现在已经与四家NHS信托基金合作。

在十月份,我们又推出了DeepMind Ethics&Society这个研究项目,用以帮助我们探索和理解AI的实际影响,从而实现更大的社会效益。我们的研究受到了来自多个领域著名专家的指导,如哲学家Nick Bostrom、气候变化专家Christiana Figueres、研究员James Manyika以及经济学家Diane Coyle和Jeffrey Sachs。

人工智能发展必须切合社会的需求和关注点,这就是为什么我们要与许多合作伙伴开展关于如何设计和部署人工智能的合作。例如,领导算法正义联盟(Algorithmic Justice League)的Joy Buolamwini以及来自人权组织Article 36的专家和英国武装部队的专家,参加了Wired Live的会议,并讨论算法的偏见和限制致命自动化武器使用的问题。正如我们经常说的那样,这些问题太重要了,而且影响极为深远。

这也是为什么我们也需要和更多的领域开展合作来讨论如何预测和指导技术的发展方向,这些合作领域可以来自AI公司内部也可以是非AI公司。其中一个例子是我们今年共同主持的人工智能伙伴关系(Partnership on AI),它召集行业竞争对手、学术界和民间团体共同讨论AI的伦理问题。在过去的一年里,PAI已经迎来了43个新的非营利和已营利组织,以及一个新的执行董事Terah Lyons。在接下来的几个月里,我们期待与这个小组合作,研究广泛的主题,包括算法中的偏见和歧视、机器学习对自动化和劳动力的影响等。

“我们对我们在2017年的所有成果感到自豪,但我们深知DeepMind还有很长的路要走。”

我们深信利用技术来实现社会效益的重要性,并且技术在影响现实生活中健康和能源方面等方面仍然有着巨大的潜力。今年,我们同意与NHS医院信托建立新的合作关系,以部署我们的Streams应用程序,该应用程序支持NHS临床医生使用数字技术,去确定机器学习技术是否有助于提高乳腺癌的检测,这也是我们参与的研究机构联盟发起了一项开创性研究。

同时,我们也一直致力于监管在健康方面工作。信息专员在研究我们与Royal Free最初的合作中,取得了一些成果。DeepMind Health的独立评论人发表了第一份关于我们工作的公开年度报告,我们也从这些报告里总结了一些经验教训。他们的审查使我们以后的工作做的更好。我们已经在我们与患者和公众的交流上做了重大的改进,包括与病人和照顾者的研讨会,并且我们也在探索在我们的系统中建立可信度的技术方法,例如可验证的数据审计技术,我们计划将其作为一个开源工具发布。

我们对我们2017年的所有进展感到自豪,但知道还有很长的路要走。

在乌镇AlphaGo与柯洁对战并从竞赛中退役了AlphaGo 的五个月后,发表了我们的第四篇Nature论文,论文关于名为AlphaGo Zero的新版本系统,这个版本不需要任何先验知识。在数百万游戏的过程中,系统逐渐从头开始学习“围棋”游戏,短短几天就积累了数千年的关于围棋对战的知识。这样做也揭示了非常规策略,并且揭示了我们从围棋这个古老游戏中的获得的启发。

我们的信念是:人工智能作为一项科学工具和人类智慧的增效器可以在为其他更为复杂问题领域发挥更大的作用。AlphaGo团队已经在准备迎接下一个重大的挑战,同时我们希望AlphaGo团队借助围棋获得的算法上启发仅仅只是开始。


原文发布时间为:2017-12-26

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
1月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
54 4
|
5月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
49 4
|
6月前
|
测试技术 自然语言处理 人工智能
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律,通过分析80个语言模型构建通用缩放模型,预测LM性能。研究显示,模型能力可用低维空间表示,与计算量呈对数线性关系。通过主成分分析,他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能,低成本评估后训练干预效果。然而,模型局限性在于可能不适应未来显著不同的模型和任务,也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)
56 2
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
【2月更文挑战第20天】谷歌工程师Alex Irpan:2028年有10%概率实现AGI
101 6
谷歌工程师Alex Irpan:2028年有10%概率实现AGI
|
数据挖掘 Python
准试验研究(Quasi-experiment)
准试验研究(Quasi-experiment)
824 3
|
存储 机器学习/深度学习 自然语言处理
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
|
自然语言处理
Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了
Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了
|
机器学习/深度学习 搜索推荐 数据挖掘
SIGIR的研究影响范围
SIGIR的研究影响范围
249 0
|
机器学习/深度学习 人工智能 分布式计算
一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad
AI模型进入大数据时代,单机早已不能满足训练模型的要求,最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad,堪称AI界的MapReduce。
269 0
一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad
|
机器学习/深度学习 人工智能 算法
GPT迭代成本「近乎荒谬」,Karpathy 300行代码带你玩转迷你版
最近,特斯拉AI总监Karpathy开源了一个名为minGPT的项目,用300行代码实现了GPT的训练。没有OpenAI的超级算力,该如何调整GPT这类语言模型的各种超参数?
438 0
GPT迭代成本「近乎荒谬」,Karpathy 300行代码带你玩转迷你版