[AI OpenAI] 提取GPT-4中的概念

简介: 研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。

总结:

研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。


我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前,我们还不理解如何理解语言模型内部的神经活动。今天,我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性,我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文(打开新窗口)、代码(打开新窗口)和特征可视化(打开新窗口),以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据组件的规格直接设计、评估和修复汽车,确保安全和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。产生的网络并不被很好理解,也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络,我们首先需要找到神经计算的有用构建块。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们也密集地激活,意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中,只有一小部分概念是相关的。这促使了稀疏自编码器的使用,这是一种方法,用于识别神经网络中对产生任何给定输出重要的少数“特征”,类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念对齐,即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而,训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念,我们的自编码器可能需要相应地巨大,以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的,过去的工作并没有显示出良好的可扩展性。

我们的研究进展:大规模自编码器训练

我们开发了新的最先进的方法论,允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展,比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器,包括GPT-4上的1600万特征自编码器。为了检查特征的解释性,我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征:

...

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而,这仍然是一项早期工作,存在许多限制:

  • 与之前的工作一样,许多发现的特征仍然难以解释,许多特征在没有明显模式的情况下激活,或者表现出与它们似乎通常编码的概念无关的虚假激活。此外,我们没有好的方法来检查解释的有效性。
  • 稀疏自编码器并没有捕捉到原始模型的所有行为。目前,将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念,我们可能需要扩展到数十亿甚至数万亿个特征,即使使用我们改进的扩展技术,这也是一项挑战。
  • 稀疏自编码器可以在模型的某一点找到特征,但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的,以及这些特征是如何在模型的其余部分中被使用的。

展望未来,并开放我们的研究

尽管稀疏自编码器研究令人兴奋,但前面还有一条漫长的道路和许多未解决的挑战。短期内,我们希望我们发现的特征能够实际用于监控和引导语言模型的行为,并计划在我们前沿模型中测试这一点。最终,我们希望有一天,可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性,并通过提供关于它们行为的强大保证,显著增加我们对强大AI模型的信任。

今天,我们分享了一篇论文(打开新窗口),详细介绍了我们的实验和方法,我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器,以及使用它们的代码(打开新窗口),和特征可视化工具(打开新窗口),以了解GPT-2和GPT-4特征可能对应的内容。


目录
打赏
0
4
4
0
60
分享
相关文章
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
GPT-image-1是OpenAI推出的新一代多模态图像生成模型,通过API提供专业级图像生成与编辑能力,支持多种分辨率、格式和艺术风格定制。
78 10
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
84 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
105 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
105 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
84 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
104 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
95 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
121 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
107 2
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
266 1

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等