拒绝黑盒飞行：40个核心术语拆解LLM从算力层到Agent层的工程架构-阿里云开发者社区

拒绝黑盒飞行：40个核心术语拆解LLM从算力层到Agent层的工程架构

2026-03-06 37

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是一份大模型全链路硬核字典，用通俗语言拆解40个核心术语，覆盖物理层（Token、Transformer、VRAM等）、训练层（Pre-training、RLHF、LoRA等）、部署层（vLLM、量化、并行技术）及应用层（RAG、Agent、CoT等），助开发者轻松翻越“名词高墙”。

大语言模型（LLM）的迭代速度极其恐怖，与之伴随的是一套如同天书般的专业词汇表。很多时候技术本身并不难懂，真正阻碍开发者和架构师的，是那堵由生僻字和英文缩写砌成的“名词高墙”。

要彻底吃透大模型，必须打通全链路。这篇文章将作为一份全景式的硬核字典，沿着大模型的生命周期——从底层算力、训练炼丹、服务器部署，一直到上层的复杂业务应用，将整整40个关键术语逐一拆解。

第一层：物理层与核心算力（模型是如何思考的？）

在把大模型跑起来之前，我们需要先看看它的机械结构，看看这个黑盒里到底装着什么传感器和处理器。

1：Token（词元） 文本的最小计价与计算单位。模型不认识人类的字母或汉字，它只吃数字。Token就是被切碎的文本碎片，可能是一个字，也可能是一个词根。你可以把它看作是信息处理系统中的“基础输入脉冲”。

2：Parameter（参数量，如7B, 70B） 神经网络中节点间连接的权重（B代表Billion，十亿）。把模型想象成一个极其庞大且精密的信号处理器，参数就是上面数以百亿计的可调电位器。

3：Transformer 目前统治大模型的底层神经网络架构。它的出现彻底终结了早期AI像金鱼一样“只有七秒记忆”的窘境，是整个LLM时代的基石。

4：Attention Mechanism（注意力机制） Transformer的核心魔法。它让模型在处理当前词时，能进行全局运算，精准“注意”到上下文中距离很远但逻辑强相关的词，从而真正理解语义。

5：Context Window（上下文窗口） 模型在一次会话中能记住的极限文本长度。这就好比微控制器内部有限的SRAM，内存空间一旦塞满，再输入新的指令，最早读入的数据就会被无情挤掉。

6：VRAM（显存） 大模型的“血液”。与普通软件吃CPU内存不同，LLM极其依赖显卡的显存大小。显存决定了你能跑多大参数的模型，以及上下文窗口能开到多大。

7：KV Cache（键值缓存） 推理加速的绝对核心技术。模型在逐字生成回答时，会把之前已经算过的中间结果（Key和Value张量）缓存在内存里，避免重复运算。这是一种用显存空间换取极端计算速度的工程妥协。

8：MoE（Mixture of Experts 混合专家架构） 一种“按需调用”的聪明架构。它把大模型拆分成多个“专家网络”，外加一个路由网络。遇到代码问题调代码专家，遇到物理问题调物理专家，在不增加单次计算量的前提下，大幅拉高了模型的总参数量。

9：Embedding（词嵌入） 将人类语言转化为高维空间中的浮点数坐标（向量）。在这个数学空间里，语义相近的词，其物理坐标也靠得极近。

10：Base Model（基座模型 / 基础模型） 未经任何特殊加工的原始模型。它包含了庞大的世界知识，但只会做“文字接龙”，不懂得如何以一问一答的助手形态与人类交流。

第二层：重工业炼丹术（模型的训练与精加工）

获取一个基础模型后，需要经过严格的工业化加工，这就好比金属制造，从粗糙的矿石一步步提纯、拉丝、成型。

11：Pre-training（预训练） 第一阶段的“暴力美学”。消耗海量算力，将互联网的原始数据喂给模型。这就好比将粗铜锭熔炼成标准的铜条，赋予了它基础的物理属性和语言规律。

12：SFT（Supervised Fine-Tuning 有监督微调） 第二阶段的精加工。使用高质量的人工撰写的“指令-回答”对来训练模型。这就像是用高精度的拉丝模具，将粗犷的铜条强行拉伸成0.04mm的极细微线，规范它的输出格式，让它学会听指令。

13：RLHF（基于人类反馈的强化学习） 第三阶段的价值观对齐。让人类给模型的多个回答打分，训练一个“奖励模型”来纠正主模型，使其不讲脏话、不输出有害信息。

14：DPO（Direct Preference Optimization 直接偏好优化） RLHF的进阶版。直接用数学推导将人类的偏好整合进微调过程中，省略了复杂的奖励模型，是目前主流的对齐手段。

15：LoRA（Low-Rank Adaptation 低秩微调） 极低成本的定制化方案。它不需要改动模型原本庞大的几百亿参数，而是在旁边旁路注入两个极小的矩阵。这就像给一台庞大的退火机外挂了一个自动贴标机械臂——不需要重构整台机器的机械结构，只需在末端增加一个小模块就能实现专属功能。

16：QLoRA 将LoRA与量化技术结合，让模型微调的门槛降到了极低，单张消费级显卡就能完成企业级私有数据的微调。

17：Checkpoint（权重存档点） 训练过程中定期保存的模型状态快照。如果在训练时系统崩溃，可以从上一个Checkpoint恢复，而不必从头再来。

18：Overfitting（过拟合） 模型在训练数据上表现极好，但在实际应用中像个傻子。因为它把训练集“死记硬背”了下来，失去了举一反三的泛化能力。

19：Loss Function（损失函数） 衡量模型当前输出与标准答案之间差距的数学公式。训练大模型的过程，本质上就是不断调整几十亿个参数，让这个Loss值降到最低。

20：Epoch（训练轮次） 在训练时，把整个数据集完整地让模型学习一遍，称为一个Epoch。大模型预训练通常只跑1个Epoch，因为数据量实在太大。

第三层：后端部署与工程优化（让模型稳定接客）

模型练好了，怎么在服务器上把它跑起来，并且抗住高并发？这不再是算法问题，而是纯正的后端工程领域。

21：Inference（推理） 模型根据用户输入生成文字的整个前向传播计算过程。训练是写数据，推理是读数据。

22：Quantization（量化） 大模型的无损或微损压缩技术。将高精度的浮点数权重截断为低精度的整数，从而大幅降低显存占用。

23：FP16 / BF16（半精度浮点） 未量化大模型的标准权重格式，极其吃显存，但拥有最完整的数学表达精度。

24：INT8 / INT4（整数化） 量化后的格式。将16位浮点数压缩成8位或4位整数。这能让原本需要专业集群才能跑起来的模型，塞进单台机架式服务器甚至普通电脑里。

25：GGUF / AWQ / GPTQ（量化算法与格式） 市面上主流的量化派系。AWQ和GPTQ主要针对GPU加速；而GGUF是专为CPU和普通内存优化的格式，脱离显卡也能硬跑大模型。

26：vLLM 目前企业级部署最火的高并发推理加速框架。它专门解决多人同时调用大模型时引发的显存崩溃问题。

27：PagedAttention vLLM框架的灵魂技术。就像在Linux服务器上手动排查PostgreSQL数据库的“too many connections”报错一样，大模型并发一高，显存就会因为碎片化而崩溃。PagedAttention借鉴了操作系统的虚拟内存分页机制，将KV Cache切成小块非连续存储，彻底打通了高并发的任督二脉。

28：TP（Tensor Parallelism 张量并行） 当模型大到单台服务器（比如一台深度达800mm的Dell R730xd）插满显卡也装不下时，需要跨卡计算。TP是一刀把模型的每一层网络切开，多张卡同时算同一层的不同部分。

29：PP（Pipeline Parallelism 流水线并行） 另一种分布式方案。像工厂流水线一样，第一张卡算前10层，算完把结果打包丢给第二张卡算中间10层。

30：DP（Data Parallelism 数据并行） 复制多个完整的模型副本在不同的显卡上，用来同时处理不同的用户请求，单纯为了提高系统的吞吐量。

第四层：应用层与业务架构（让模型长出心智和手脚）

对于90%的软件开发者来说，不用碰底层显卡，战场在这一层：如何通过API把AI变成真正的业务系统。

31：Prompt Engineering（提示词工程） 通过设定具体的Persona（角色）、Context（背景）、Task（任务）和Format（格式），用纯文本的方式最大化压榨模型的逻辑能力。

32：CoT（Chain of Thought 思维链） 一种高级提示词技巧。强迫模型在给出最终答案前，先在后台一步步输出它的推导过程。这能极其夸张地降低大模型在复杂数学和逻辑问题上的错误率。

33：Few-Shot（少样本提示） 在提问时，顺带给模型塞几个“一问一答”的标准范例，让它照葫芦画瓢，稳定输出格式。

34：Hallucination（幻觉） 大模型的绝症。当它遇到知识盲区时，不仅不会说“我不知道”，还会一本正经地胡说八道、伪造参考文献。

35：RAG（Retrieval-Augmented Generation 检索增强生成） 治疗幻觉的物理特效药。不要求模型死记硬背，而是给它外挂一个知识库。提问时先去库里查资料，再让模型根据资料生成答案。

36：Vector Database（向量数据库） RAG系统的核心基建。用来存储和极速检索经过Embedding转化后的文本向量坐标。

37：Chunking（文本分块） 在将企业内部长文档存入向量数据库前，需要将其切分成几百字一段的文字块，确保检索时的颗粒度够细。

38：Agent（智能体） 如果RAG是给模型外挂了硬盘，Agent则是给模型装上了四肢。Agent允许模型独立思考、拆解目标，并主动调用外部工具去完成复杂任务。

39：Function Calling / Tool Calling（函数调用） Agent的执行抓手。开发者预先写好各种功能接口（查库存、执行SQL），模型在理解意图后，会返回一段JSON，指挥业务系统去触发真实的物理或软件动作。

40：ReAct（Reason + Act 框架） Agent最经典的运行架构。模型先思考（Reason），然后采取行动（Act）调用工具，拿到工具返回的数据后再观察（Observation），接着进行下一步思考。这就像在极其硬核的沙盒生存环境里搭建全自动系统，不能指望单线程运行，必须用类似RS锁存器的严密逻辑去读取机器状态、控制流程，一旦环境参数越界立刻执行下一步策略，一步步逼近最终的自动化目标。

拒绝黑盒飞行：40个核心术语拆解LLM从算力层到Agent层的工程架构

第一层：物理层与核心算力（模型是如何思考的？）

第二层：重工业炼丹术（模型的训练与精加工）

第三层：后端部署与工程优化（让模型稳定接客）

第四层：应用层与业务架构（让模型长出心智和手脚）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

拒绝黑盒飞行：40个核心术语拆解LLM从算力层到Agent层的工程架构

第一层：物理层与核心算力（模型是如何思考的？）

第二层：重工业炼丹术（模型的训练与精加工）

第三层：后端部署与工程优化（让模型稳定接客）

第四层：应用层与业务架构（让模型长出心智和手脚）

热门文章

最新文章

相关电子书