[AI OpenAI] 提取GPT-4中的概念

简介: 研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。

总结:

研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。


我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前,我们还不理解如何理解语言模型内部的神经活动。今天,我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性,我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文(打开新窗口)、代码(打开新窗口)和特征可视化(打开新窗口),以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据组件的规格直接设计、评估和修复汽车,确保安全和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。产生的网络并不被很好理解,也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络,我们首先需要找到神经计算的有用构建块。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们也密集地激活,意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中,只有一小部分概念是相关的。这促使了稀疏自编码器的使用,这是一种方法,用于识别神经网络中对产生任何给定输出重要的少数“特征”,类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念对齐,即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而,训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念,我们的自编码器可能需要相应地巨大,以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的,过去的工作并没有显示出良好的可扩展性。

我们的研究进展:大规模自编码器训练

我们开发了新的最先进的方法论,允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展,比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器,包括GPT-4上的1600万特征自编码器。为了检查特征的解释性,我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征:

...

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而,这仍然是一项早期工作,存在许多限制:

  • 与之前的工作一样,许多发现的特征仍然难以解释,许多特征在没有明显模式的情况下激活,或者表现出与它们似乎通常编码的概念无关的虚假激活。此外,我们没有好的方法来检查解释的有效性。
  • 稀疏自编码器并没有捕捉到原始模型的所有行为。目前,将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念,我们可能需要扩展到数十亿甚至数万亿个特征,即使使用我们改进的扩展技术,这也是一项挑战。
  • 稀疏自编码器可以在模型的某一点找到特征,但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的,以及这些特征是如何在模型的其余部分中被使用的。

展望未来,并开放我们的研究

尽管稀疏自编码器研究令人兴奋,但前面还有一条漫长的道路和许多未解决的挑战。短期内,我们希望我们发现的特征能够实际用于监控和引导语言模型的行为,并计划在我们前沿模型中测试这一点。最终,我们希望有一天,可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性,并通过提供关于它们行为的强大保证,显著增加我们对强大AI模型的信任。

今天,我们分享了一篇论文(打开新窗口),详细介绍了我们的实验和方法,我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器,以及使用它们的代码(打开新窗口),和特征可视化工具(打开新窗口),以了解GPT-2和GPT-4特征可能对应的内容。


相关文章
|
8天前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
47 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
1月前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
213 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
15天前
|
人工智能 Kubernetes 测试技术
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
SWE-Lancer 是 OpenAI 推出的基准测试,评估语言模型在自由职业软件工程任务中的表现,涵盖真实任务、端到端测试和多选项评估。
70 4
SWE-Lancer:OpenAI发布衡量AI工程能力的「血汗标尺」!1400个百万美元任务实测,GPT-4o仅能赚2.9万刀?
|
7天前
|
人工智能 芯片
D1net阅闻|OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏
D1net阅闻|OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏
|
7天前
|
人工智能
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
|
9天前
|
人工智能 搜索推荐 机器人
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
|
9天前
|
人工智能 算法 机器人
OpenAI的GPT-5即将问世:目前我们所知道的一切
OpenAI的GPT-5即将问世:目前我们所知道的一切
|
11天前
|
机器学习/深度学习 人工智能 编解码
Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器
Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。
97 5
|
9天前
|
机器学习/深度学习 人工智能 机器人
AI成本革命:DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式
AI成本革命:DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式
|
16天前
|
人工智能 算法
细思极恐,GPT-4竟串谋AI欺骗人类!哈佛PSU重磅揭秘算法共谋,AI教父预言正成真
近日,哈佛大学和宾夕大合著的重磅论文揭示,基于大型语言模型(如GPT-4)的算法可能自主串谋,损害消费者利益。研究发现,这些算法在虚拟市场中能迅速达成默契,提高价格以获取更高利润,类似于人类垄断行为。这一现象曾被DeepMind联合创始人Shane Legg预言,如今成为现实。论文呼吁加强对AI的监管,确保其透明性和可解释性,以防止潜在风险,并促进AI的可持续发展。
25 6

热门文章

最新文章