AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。

近年来,大型语言模型(LLM)的内部运作机制一直是研究的热点。最近,一篇名为"The Geometry of Concepts: Sparse Autoencoder Feature Structure"的论文揭示了LLM特征的惊人几何结构,引发了广泛的关注和讨论。

这篇论文由麻省理工学院的研究人员撰写,他们利用稀疏自编码器(SAE)来分析LLM的激活空间,并发现了其中蕴含的丰富几何结构。SAE是一种无监督学习算法,能够从高维数据中提取出具有语义意义的特征。

研究人员首先将LLM的激活空间中的点(即特征)视为概念的表示,然后通过SAE对这些特征进行编码和解码。他们发现,SAE能够生成一个由高维向量组成的字典,这些向量对应着LLM所代表的概念宇宙。

研究人员在分析SAE生成的字典时,发现了特征在三个不同尺度上的有趣结构:

  1. 原子尺度:晶体结构

    • 在原子尺度上,研究人员发现了由平行四边形或梯形组成的"晶体"结构。这些结构反映了概念之间的语义关系,例如经典的例子(man:woman::king:queen),其中(man, woman, king, queen)形成了一个近似的平行四边形。
    • 这种结构可以解释为两个功能向量的作用:一个将男性实体变为女性,另一个将实体变为王室成员。
  2. 大脑尺度:中尺度模块化结构

    • 在大脑尺度上,研究人员发现了显著的空间模块化结构。例如,数学和代码特征形成了一个"脑叶",类似于功能脑叶在神经fMRI图像中的表现。
    • 他们通过多种度量方法量化了这些脑叶的空间局部性,并发现在足够粗的尺度上,共同出现的特征是空间上聚集在一起的,这比随机特征几何的情况更为显著。
  3. 星系尺度:大尺度点云结构

    • 在星系尺度上,研究人员发现特征点云的结构不是各向同性的,而是具有一个幂律的本征值,其中中间层具有最陡的斜率。
    • 他们还量化了聚类熵如何随层变化,发现中间层具有较低的聚类熵,而早期和晚期层具有较高的熵。

这些发现对我们理解LLM的工作原理具有重要意义。首先,它们揭示了LLM在处理语言时所利用的潜在几何结构,这为我们理解语言的表示和生成提供了新的视角。

其次,这些发现可能对LLM的优化和改进具有指导意义。例如,了解特征的几何结构可以帮助我们设计更好的正则化方法,以减少模型的过拟合风险。

此外,这些发现还可能对其他领域产生影响,例如计算机视觉和自然语言处理。例如,了解特征的几何结构可以帮助我们设计更好的图像分类器或机器翻译系统。

这篇论文的发现无疑是令人兴奋的,它们为我们理解LLM的内部运作机制提供了新的洞见。然而,也有一些问题和挑战需要进一步的研究和探索。

首先,尽管研究人员发现了特征的几何结构,但他们并没有完全解释这些结构的起源和作用。例如,为什么会出现幂律的本征值?这些结构对LLM的性能有何影响?这些问题需要进一步的研究来回答。

其次,这篇论文主要关注的是LLM的激活空间,而没有考虑其他因素,如注意力机制和上下文信息。这些因素也可能对特征的几何结构产生影响,因此需要进一步的研究来综合考虑各种因素的作用。

最后,尽管这篇论文的发现具有重要意义,但它们是否能够应用于实际的LLM优化和改进仍然是一个未知数。因此,需要进一步的研究来验证这些发现的实用性和可行性。

论文链接:https://arxiv.org/pdf/2410.19750

相关实践学习
1分钟部署经典小游戏
本场景介绍如何使用Serverless应用引擎SAE 1分钟快速部署经典小游戏。
SAE的功能与使用入门
欢迎来到《SAE的功能与使用入门》,本课程是“云原生Serverless Clouder认证“系列中的第三阶段。课程将向您介绍阿里云Serverless应用引擎(SAE)服务相关的概念、特性与使用方式。通过课程将带您逐步深入探索Serverless世界,借助SAE服务,即使没有丰富的云计算和IT经验,也能够让开发人员在实际业务场景中便捷的掌握如何构建和部署应用程序,快速拥抱Serverless架构,将精力聚焦在应用代码和业务逻辑的实现上。 学习完本课程后,您将能够: 掌握Serverless应用引擎(SAE)的基本概念与核心优势 了解Serverless应用引擎(SAE)的核心功能 掌握使用Serverless应用引擎(SAE)的开发和部署流程 了解Serverless应用引擎(SAE)的适用场景和最佳实践  
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
119 26
|
2月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
92 26
|
1天前
|
存储 人工智能 搜索推荐
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
38 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
|
10天前
|
传感器 人工智能 机器人
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
37 1
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
90 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
1月前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
179 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
7天前
|
物联网
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
北航PHM实验室提出了一种基于大型语言模型(LLM)的轴承故障诊断框架,结合传统诊断技术,解决了跨条件适应性、小样本学习和跨数据集泛化等问题。该框架通过信号特征量化方法提取振动数据的语义信息,并采用LoRA和QLoRA微调预训练模型,显著提升了诊断模型的泛化能力。实验结果显示,在跨数据集训练中,模型准确性提升了约10%,相关成果发表于《Mechanical Systems and Signal Processing》期刊。尽管存在计算资源需求高等挑战,该研究为旋转机械的高效维护提供了新思路。
23 2
|
1月前
|
人工智能 自然语言处理 算法
LLM为何频频翻车算术题?最新研究追踪单个神经元,大脑短路才是根源
最新研究揭示,大型语言模型(LLM)在解决算术问题时依赖于一组稀疏的重要神经元,这些神经元实现简单的启发式算法,而非稳健的算法或记忆训练数据。通过因果分析,研究人员发现这些启发式算法的组合是LLM产生正确算术答案的主要机制,并在训练早期就已形成。这为改进LLM的算术能力提供了新方向。论文地址:https://arxiv.org/abs/2410.21272
52 10
|
1月前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
55 11
|
7天前
|
人工智能 机器人
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性

热门文章

最新文章