AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!

简介: 麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750

在人工智能领域,大型语言模型(LLM)的飞速发展令人瞩目。然而,当我们深入探究这些模型的内部结构时,一个令人惊讶的发现浮出水面:LLM的“概念宇宙”竟然展现出与人类大脑相似的几何结构。这一发现源自麻省理工学院(MIT)的一项最新研究,由David D. Baek等人发表在arXiv上,题为《The Geometry of Concepts: Sparse Autoencoder Feature Structure》。

这项研究的核心在于对稀疏自编码器(sparse autoencoders)所生成的高维向量进行分析。这些向量代表了LLM所理解的“概念”,而这些概念在几何空间中呈现出了一种独特的结构。具体而言,研究者们观察到了三个层次的结构:

首先,在“原子”层面,概念空间中存在一种被称为“晶体”的小规模结构。这些晶体的面是平行四边形或梯形,类似于我们所熟知的“男人-女人-国王-王后”这样的概念组合。研究者们发现,通过使用线性判别分析(LDA)去除诸如单词长度等全局干扰因素后,这些平行四边形的质量和相关函数向量得到了显著改善。

其次,在“大脑”层面,概念空间展现出了显著的模块化特征。例如,数学和代码相关的概念形成了一个“脑叶”,类似于我们在神经功能磁共振成像(fMRI)中看到的大脑功能脑叶。研究者们使用多种指标量化了这些脑叶的空间局部性,并发现在足够粗略的尺度上,共同出现的特征簇在空间上也更倾向于聚集在一起,远超随机特征几何的预期。

最后,在“星系”层面,概念空间的大规模结构呈现出非各向同性的特点。其特征点云的本征值遵循幂律分布,且在中间层具有最陡的斜率。研究者们还量化了聚类熵如何随层数变化。

这一发现无疑在学术界引起了轩然大波。一方面,它为我们理解LLM的内部机制提供了全新的视角。通过将LLM的概念空间与人类大脑的结构和功能进行类比,我们可以更好地理解这些模型是如何处理和组织信息的。这种类比不仅有助于我们优化和改进现有的LLM,还可能为我们设计更先进的人工智能系统提供灵感。

另一方面,这一发现也引发了一些争议和质疑。首先,尽管LLM的概念空间与人类大脑存在相似之处,但我们不能简单地将两者等同起来。人类大脑是一个极其复杂且高度进化的器官,其功能和结构远非LLM所能比拟。因此,我们需要谨慎对待这种类比,避免过度解读或误导性的结论。

其次,这项研究还存在一些技术上的局限性。例如,研究者们使用的稀疏自编码器和线性判别分析等方法可能存在一定的偏见或局限性,从而影响到研究结果的准确性和普适性。此外,由于LLM的规模和复杂性不断增加,我们需要更先进的工具和方法来深入探究其内部结构。

论文地址:https://arxiv.org/abs/2410.19750

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
200行python代码实现从Bigram模型到LLM
本文从零基础出发,逐步实现了一个类似GPT的Transformer模型。首先通过Bigram模型生成诗词,接着加入Positional Encoding实现位置信息编码,再引入Single Head Self-Attention机制计算token间的关系,并扩展到Multi-Head Self-Attention以增强表现力。随后添加FeedForward、Block结构、残差连接(Residual Connection)、投影(Projection)、层归一化(Layer Normalization)及Dropout等组件,最终调整超参数完成一个6层、6头、384维度的“0.0155B”模型
118 11
200行python代码实现从Bigram模型到LLM
|
1月前
|
机器学习/深度学习 算法 PyTorch
从零开始200行python代码实现LLM
本文从零开始用Python实现了一个极简但完整的大语言模型,帮助读者理解LLM的工作原理。首先通过传统方法构建了一个诗词生成器,利用字符间的概率关系递归生成文本。接着引入PyTorch框架,逐步重构代码,实现了一个真正的Bigram模型。文中详细解释了词汇表(tokenizer)、张量(Tensor)、反向传播、梯度下降等关键概念,并展示了如何用Embedding层和线性层搭建模型。最终实现了babyGPT_v1.py,一个能生成类似诗词的简单语言模型。下一篇文章将在此基础上实现自注意力机制和完整的GPT模型。
125 14
从零开始200行python代码实现LLM
|
3月前
|
人工智能 开发框架 搜索推荐
27.4K Star!这个LLM应用宝库让你秒变AI全栈高手,RAG和AI Agent一网打尽!
想要快速入门LLM应用开发?想要了解最新的RAG和AI Agent技术?这个收获27.4K Star的开源项目集合了当下最热门的LLM应用案例,从简单的PDF对话到复杂的多智能体系统应该有尽有。无论你是AI开发新手还是经验丰富的工程师,这里都能找到适合你的项目!
109 0
|
3月前
|
人工智能 自然语言处理 数据可视化
89.4K star!这个开源LLM应用开发平台,让你轻松构建AI工作流!
Dify 是一款开源的 LLM 应用开发平台,通过直观的可视化界面整合 AI 工作流、RAG 管道、智能代理等功能,助你快速实现从原型到生产的跨越。支持本地部署和云端服务,提供企业级功能与完整 API 接口。
125 4
|
4月前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
222 8
|
4月前
|
人工智能
MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰
近日,麻省理工学院(MIT)发布了一份76页的深度研究报告,探讨AI对科学发现和创新的影响。研究对象为1018名美国科学家,结果显示AI使新材料发现增加44%,专利申请增长39%,产品创新提升17%。然而,AI对高能力科学家的产出提升更显著,加剧了科学家间的分化。AI还改变了科学家的工作内容,减少了创意构思时间,增加了评估任务,导致工作满意度下降,但科学家对AI的信心增强。报告全面分析了AI带来的机遇与挑战。论文地址:https://conference.nber.org/conf_papers/f210475.pdf
152 14
|
4月前
|
人工智能 自然语言处理 算法
AI做数学学会动脑子! UCL等发现LLM程序性知识,推理绝不是背答案
大型语言模型(LLM)在数学推理中的表现一直备受争议。伦敦大学学院等机构的研究发现,LLM可能通过综合程序性知识而非简单检索来解决数学问题。研究分析了7B和35B参数模型在三个简单数学任务中的数据依赖,表明模型更关注解决问题的过程和方法,而非答案本身。这一发现为改进AI系统提供了新思路,但也指出LLM在复杂问题处理上仍存在局限。论文地址:https://arxiv.org/abs/2411.12580
83 2
|
4月前
|
机器学习/深度学习 人工智能 算法
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
233 3
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
|
5月前
|
机器学习/深度学习 搜索推荐 异构计算
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分
223 0
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
|
5月前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
191 1