如何管教AI的行为举止?OpenAI早已开始研究,而这只是整个AI安全领域的前哨

简介:

雷锋网 AI 科技评论按:在比赛中刷成绩和在游戏中击败人类职业选手仅仅是 AI 研究的一部分,OpenAI 的研究人员们同样重视对 AI 安全性的研究。这篇文章是纽约时报来到 OpenAI 实验室的报道,介绍了 OpenAI 近期在 AI 安全领域的想法和一些成果,也让我们看到了 OpenAI 研究人员的风采。雷锋网 AI 科技评论编译。

自学的人工智能可能学到奇怪的行为

在旧金山的 OpenAI 人工智能实验室中,计算机们可以自我学习、学会人类的举止。不过有时候也会出问题。

如何管教AI的行为举止?OpenAI早已开始研究,而这只是整个AI安全领域的前哨Geoffrey Irving(左)和 Dario Amodei 展示可以在简单的游戏中训练人工智能

前不久的一个下午,OpenAI 的研究员 Dario Amodei 在办公室里展示了一个自己学会玩 Coast Runners 小游戏的 AI 系统。这个游戏是一个颇有年份的电脑游戏,通过终点的时候得到的分数最高的船就是游戏的胜者。

不过 AI 系统的表现让人意外:游戏规则是吃掉屏幕上不停出现的绿色点点就会得分,而这只船对它们太感兴趣了,它根本不急着冲向终点,而是不停绕圈、跟其它的船撞在一起、蹭着墙壁滑行,还有反复着火,就是不惜一切代价去得分。

Dario Amodei 着火的小船游戏就展示出了正在迅速改变科技界的 AI 技术背后的风险。研究员们研究的是如何让机器自主学习,Google 的 DeepMind 也做的是类似的事情,他们开发出了能够击败世界顶级选手的 AlphaGo。但是随着这些机器在数小时的数据分析中自我训练,它们也可能会学会一些人类没有估计到的、不希望看到的、甚至是会造成实质性伤害的行为。

当网络服务、安全设备和机器人都开始用上 AI 技术以后,这样的担忧就无法忽视了。现在,Dario Amodei 在内的一部分 AI 研究人员已经开始联手探索新的技术理论来避免最糟糕的情况发生。

在 OpenAI,Dario Amodei 和他的同事 Paul Christiano 正在一起开发新的算法,他们希望这些算法不仅能在数小时的试错中学习,还能够在途中接受来自人类老师的普遍性指导。

现在他们已经找到了一种方法让 AI 系统知道 Coast Runners 的小船要边得分、边往终点走才行,而且人类只要在屏幕上点一点就可以。他们相信这样能够综合利用人类和机器指导的算法可以帮助确保无人系统的安全性。(这项研究的具体内容可见雷锋网 AI 科技评论之前的报道 你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

如何管教AI的行为举止?OpenAI早已开始研究,而这只是整个AI安全领域的前哨

Dario Amodei 和他的同事正在开发新算法,不仅能够自己试错学习,人类也可以给与指导

不可忽视的风险

近几年来,埃隆马斯克以及其它一些权威、哲学家、科技爱好者都在反复警告机器有可能摆脱人类的控制,学到一些设计者并不希望看到的有害行为。随着时间慢慢过去,人们似乎忘掉了这些警告,毕竟如今的自动驾驶汽车在识别行车线或者识别红灯这样最基本的任务中都会表现得磕磕绊绊。

但是 Dario Amodei 这样的研究者是希望赶在危险出现之前就把它们消灭掉。从某种意义上说,这些科学家做的事情就像是父母给小孩教什么是对、什么是错。

许多 AI 界的专家都相信强化学习会是通往人工智能的主要途径之一,这种方法里机器要反复试错才能最终学会做某件特定的事情。研究人员们为机器指定好一个它要追求的回馈,它就会随机地做出行动“尝试”达成任务,同时也密切关注着哪些事情会带来更高的回馈。当 OpenAI 的研究人员训练那个 AI 玩 Coast Runners 的时候,他们给它设定的回馈目标就是获得更高的分数。

虽然这只是一个游戏,但是能从里面影射出现实世界的状况。

研究人员们相信,如果一台机器学会了玩 GTA 这样的竞速游戏,它就能开一辆真车;如果它能学会用网页浏览器和其它一些常用的软件,它就学会了理解自然语言,可能还能够跟人对话。在谷歌和UC伯克利大学,机器人们已经用上了这样的技术来学会捡起东西或者开门等简单任务。这些事情不仅是 AI 开发测试的理想环境,能够完成它们也说明了 AI 具有相当的智能,接下来可以在更真实的环境中完成任务。

正因为这样,Dario Amodei 和 Paul Christiano 更加努力地想要开发出新的、能够让人类从中给予指导的强化学习算法,才能够保证 AI 系统不会偏离它们要完成的任务——谁都不想让 AI 系统在现实中造成不好的后果。

更多研究者已经加入了这个领域

这两位 OpenAI 的研究员已经和伦敦的 DeepMind 实验室的人一起发布了一些这方面的研究成果。虽然他们以往并没有什么合作经历,但毕竟两个都是世界顶级实验室,这些算法也确实算得上是 AI 安全研究方面显著的一步。

UC伯克利的研究员 Dylan Hadfield-Menell 说:“这种做法可以验证很多前向思考的成果,类似这样的算法在未来5到10年内有很大的潜力。”

AI 安全这个领域不大,但是一直在成长。随着 OpenAI 和 DeepMind 都建立了专门致力于 AI 安全的研究小组,谷歌的本土实验室 Google Brain 也加入了进来。同时,来自UC伯克利、斯坦福等大学的研究者也在研究着类似的问题,也经常与这些大公司实验室展开合作。

如何管教AI的行为举止?OpenAI早已开始研究,而这只是整个AI安全领域的前哨

站着的是 Dario Amodei,Paul Christiano 穿着浅蓝衬衣,Geoffrey Irving 正在白板上写写画画

有时候,研究者们研究的是确保 AI 系统不会自己犯错,像 Coast Runners 里的小船那样。他们也需要避免攻击者和其它怀有恶意的人发现系统中的漏洞。比如谷歌的研究员 Ian Goodfellow 就已经在研究中发现攻击者可以欺骗 AI 系统,让它们以为自己看到了别的东西。

现代计算机视觉的基础是深度神经网络,它们是一类模式识别系统,在经过大规模数据训练以后就可以学会特定的任务。用成千上万张狗的照片训练过以后,神经网络就可以学会识别一条狗。Facebook 就是用这样的方式识别自拍中的人脸的,谷歌也是这样在照片应用中对图像做即时搜索的。

不过 Ian Goodfellow 等人已经表明了攻击者可以修改一张图像,让神经网络以为图像里面是别的东西。比如对一张大象照片里面的某些像素做改动以后,就可以让神经网络把它识别成一辆汽车。

当神经网络用在安防摄像头中的时候,这就会成为实实在在的麻烦。根据研究员们所说,在脸上画几个记号就可以让摄像头以为你是别的人。

Ian Goodfellow 也说:“即便用一百万张人类标注的图像训练出一个物体识别系统,我们仍然可以创造出人类和计算机的识别结果100%不同的新图像。这种现象还需要我们继续深入了解。”

另一个难以忽视的担心是 AI 系统可能会学到一些方法,防止人类把它们关掉。在给机器设定了目标回馈以后,随着它的尝试和思考,它可能会觉得只有保证自己一直在运行才能够一直获得这些回馈。这个常常被提及的威胁可能距离目前的状况更远一点,但是研究者们也已经开始着手做预防。

Hadfield-Menell 和其它的 UC伯克利学者最近发表了一篇论文,介绍了一种解决这个问题的数学式方法。他们表明,如果设计机器的时候专门给它设定了一个不确定的回馈函数的话,它就会想办法保持它的开关是打开的。这就给它选择接受人类监管还是逃出去带来了刺激。

安全方面多数的研究还是理论性的。不过从 AI 技术的飞速发展和在许多工业应用中越来越重要的地位看来,研究者们认为相关研究开始得越早越好。

DeepMind 的 AI 安全研究负责人 Shane Legg 给出了他的看法:“AI 发展得这么快,未来到底怎么样还很难说。这些技术可能被滥用、被攻破的方式有很多,负责任的做法就是要尝试理解这些方法,并且设计各种解决方法。”

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接


相关文章
|
3月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
3月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
6月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
3月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
848 48
|
4月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1102 52
|
3月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
539 30
|
3月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
543 1
|
3月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
408 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?

热门文章

最新文章