四年、投入20%计算资源,OpenAI成立专门团队构建解决对齐问题的超强AI

简介: 四年、投入20%计算资源,OpenAI成立专门团队构建解决对齐问题的超强AI

OpenAI:人类管不了未来的 AI,我们要构建一个监督模型对齐的新 AI。


随着 ChatGPT、GPT-4、LLaMA 等生成式大模型的爆火,生成式 AI 技术成为一个值得关注和思考的重要话题。一方面,生成式 AI 能够大幅提升生产效率;另一方面,人们也看到了生成式 AI 技术背后隐藏的风险。


今年上半年,机器学习领域的专家、学者已经多次联合发表公开信,呼吁人们重视生成式 AI 的潜在风险,并限制构建生成式 AI 大模型。其中,图灵奖得主 Geoffrey Hinton 更是在 4 月从谷歌离职,警告人们生成式 AI 将「对人类构成威胁」。


OpenAI 作为 ChatGPT、GPT-4 等大模型背后的公司,无疑被推上了风口浪尖。


现在,OpenAI 开始自救,正式宣布成立一个新的研究团队 ——Superalignment 团队,由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。值得注意的是,这个团队的主要任务是构建一个与人类水平相当的、负责模型对齐的「AI 研究员」。也就是说,OpenAI 要用 AI 来监督 AI。


OpenAI CEO Sam Altman 和 OpenAI 联合创始人 Ilya Sutskever。


四年投入 20% 算力


OpenAI 认为,人工智能技术正在飞速发展,影响全人类的超级智能(Superintelligence)看似遥远,但极有可能在十年内到来。


超级智能将是一把双刃剑,它可以帮助人类解决世界上许多重要问题,但它也可能导致人类丧失权力,威胁人类安全。


治理这些风险需要建立新的治理机构,并解决 AI 模型的对齐问题。一个显著的问题是:超级智能可能比人类更聪明,如何能让如此强大的 AI 系统遵循人类的意愿?


当前,将模型输出和人类偏好进行对齐最先进的方案是 RLHF,即以强化学习的方式依据人类反馈优化语言模型,本质上讲这种方法仍然依赖于人类监督 AI 的能力,将不适用于超级智能。


因此,OpenAI 宣布投入 20% 的计算资源,花费 4 年的时间全力打造一个解决超级智能对齐问题的超级对齐(Superalignment)系统。



为了构建超级对齐系统,开发团队需要做的工作如下:


1)开发一个可扩展的训练方法:

利用人工智能系统来协助评估其他人工智能系统,并将 AI 模型的监督能力泛化到人类无法监督的任务上。


2)验证系统:

为了验证系统的一致性,开发过程中会自动搜索有问题的行为(稳健性)和有问题的内部结构(可解释性)。


3)对整个对齐管道进行压力测试:

最后,使用未对齐的模型来测试整个流程,确保所提方法可以检测到最严重的未对齐类型(对抗性测试)。


团队信息


前文介绍过,Superalignment 团队由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。从 OpenAI 今天推特公布的信息来看目前也已有多位成员。



Ilya Sutskever 大名想必大家都已经听过。


Sutskever 在多伦多大学获得了计算机科学学士、硕士和博士学位,导师是 Geoffrey Hinton。博士毕业后进入斯坦福大学,成为吴恩达的博士后。后担任 DNNresearch 的联合创始人。2013 年,Ilya Sutskever 与 Hinton 一起加入谷歌大脑团队。他后来离开谷歌加入 OpenAI,成为了联合创始人和首席科学家。


团队另一负责人 Jan Leike,2016 年博士毕业,后加入谷歌做人类反馈强化学习(RLHF)相关研究,2021 年加入 OpenAI 做对齐研究。



去年,Jan Leike 曾在 OpenAI 发博客介绍他们进行对齐研究的相关方法,感兴趣的读者可以详细了解下。


链接:https://openai.com/blog/our-approach-to-alignment-research


OpenAI 这种用 AI 来监督 AI 的方法将是一种新的尝试,我们很难预判这种方法的实际效果,有人发出疑问:「谁来管理这个『AI 监督员』呢?」



但毫无疑问的是,面对超级强大的人工智能模型,我们的确需要新的对齐方法来保证 AI 模型的可控性。OpenAI 的方案如何,我们拭目以待。


参考链接:https://openai.com/blog/introducing-superalignment#JanLeike

相关文章
|
6月前
|
人工智能 文字识别 监控
|
6月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
3574 166
|
6月前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
4750 92
|
6月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
2077 7
|
6月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
2512 18
构建AI智能体:一、初识AI大模型与API调用
|
6月前
|
存储 机器学习/深度学习 人工智能
构建AI智能体:三、Prompt提示词工程:几句话让AI秒懂你心
本文深入浅出地讲解Prompt原理及其与大模型的关系,系统介绍Prompt的核心要素、编写原则与应用场景,帮助用户通过精准指令提升AI交互效率,释放大模型潜能。
1211 6
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
829 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
901 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈