拒绝黑盒飞行:40个核心术语拆解LLM从算力层到Agent层的工程架构

简介: 本文是一份大模型全链路硬核字典,用通俗语言拆解40个核心术语,覆盖物理层(Token、Transformer、VRAM等)、训练层(Pre-training、RLHF、LoRA等)、部署层(vLLM、量化、并行技术)及应用层(RAG、Agent、CoT等),助开发者轻松翻越“名词高墙”。

大语言模型(LLM)的迭代速度极其恐怖,与之伴随的是一套如同天书般的专业词汇表。很多时候技术本身并不难懂,真正阻碍开发者和架构师的,是那堵由生僻字和英文缩写砌成的“名词高墙”。

要彻底吃透大模型,必须打通全链路。这篇文章将作为一份全景式的硬核字典,沿着大模型的生命周期——从底层算力、训练炼丹、服务器部署,一直到上层的复杂业务应用,将整整40个关键术语逐一拆解。

第一层:物理层与核心算力(模型是如何思考的?)

在把大模型跑起来之前,我们需要先看看它的机械结构,看看这个黑盒里到底装着什么传感器和处理器。

1:Token(词元) 文本的最小计价与计算单位。模型不认识人类的字母或汉字,它只吃数字。Token就是被切碎的文本碎片,可能是一个字,也可能是一个词根。你可以把它看作是信息处理系统中的“基础输入脉冲”。

2:Parameter(参数量,如7B, 70B) 神经网络中节点间连接的权重(B代表Billion,十亿)。把模型想象成一个极其庞大且精密的信号处理器,参数就是上面数以百亿计的可调电位器。

3:Transformer 目前统治大模型的底层神经网络架构。它的出现彻底终结了早期AI像金鱼一样“只有七秒记忆”的窘境,是整个LLM时代的基石。

4:Attention Mechanism(注意力机制) Transformer的核心魔法。它让模型在处理当前词时,能进行全局运算,精准“注意”到上下文中距离很远但逻辑强相关的词,从而真正理解语义。

5:Context Window(上下文窗口) 模型在一次会话中能记住的极限文本长度。这就好比微控制器内部有限的SRAM,内存空间一旦塞满,再输入新的指令,最早读入的数据就会被无情挤掉。

6:VRAM(显存) 大模型的“血液”。与普通软件吃CPU内存不同,LLM极其依赖显卡的显存大小。显存决定了你能跑多大参数的模型,以及上下文窗口能开到多大。

7:KV Cache(键值缓存) 推理加速的绝对核心技术。模型在逐字生成回答时,会把之前已经算过的中间结果(Key和Value张量)缓存在内存里,避免重复运算。这是一种用显存空间换取极端计算速度的工程妥协。

8:MoE(Mixture of Experts 混合专家架构) 一种“按需调用”的聪明架构。它把大模型拆分成多个“专家网络”,外加一个路由网络。遇到代码问题调代码专家,遇到物理问题调物理专家,在不增加单次计算量的前提下,大幅拉高了模型的总参数量。

9:Embedding(词嵌入) 将人类语言转化为高维空间中的浮点数坐标(向量)。在这个数学空间里,语义相近的词,其物理坐标也靠得极近。

10:Base Model(基座模型 / 基础模型) 未经任何特殊加工的原始模型。它包含了庞大的世界知识,但只会做“文字接龙”,不懂得如何以一问一答的助手形态与人类交流。

第二层:重工业炼丹术(模型的训练与精加工)

获取一个基础模型后,需要经过严格的工业化加工,这就好比金属制造,从粗糙的矿石一步步提纯、拉丝、成型。

11:Pre-training(预训练) 第一阶段的“暴力美学”。消耗海量算力,将互联网的原始数据喂给模型。这就好比将粗铜锭熔炼成标准的铜条,赋予了它基础的物理属性和语言规律。

12:SFT(Supervised Fine-Tuning 有监督微调) 第二阶段的精加工。使用高质量的人工撰写的“指令-回答”对来训练模型。这就像是用高精度的拉丝模具,将粗犷的铜条强行拉伸成0.04mm的极细微线,规范它的输出格式,让它学会听指令。

13:RLHF(基于人类反馈的强化学习) 第三阶段的价值观对齐。让人类给模型的多个回答打分,训练一个“奖励模型”来纠正主模型,使其不讲脏话、不输出有害信息。

14:DPO(Direct Preference Optimization 直接偏好优化) RLHF的进阶版。直接用数学推导将人类的偏好整合进微调过程中,省略了复杂的奖励模型,是目前主流的对齐手段。

15:LoRA(Low-Rank Adaptation 低秩微调) 极低成本的定制化方案。它不需要改动模型原本庞大的几百亿参数,而是在旁边旁路注入两个极小的矩阵。这就像给一台庞大的退火机外挂了一个自动贴标机械臂——不需要重构整台机器的机械结构,只需在末端增加一个小模块就能实现专属功能。

16:QLoRA 将LoRA与量化技术结合,让模型微调的门槛降到了极低,单张消费级显卡就能完成企业级私有数据的微调。

17:Checkpoint(权重存档点) 训练过程中定期保存的模型状态快照。如果在训练时系统崩溃,可以从上一个Checkpoint恢复,而不必从头再来。

18:Overfitting(过拟合) 模型在训练数据上表现极好,但在实际应用中像个傻子。因为它把训练集“死记硬背”了下来,失去了举一反三的泛化能力。

19:Loss Function(损失函数) 衡量模型当前输出与标准答案之间差距的数学公式。训练大模型的过程,本质上就是不断调整几十亿个参数,让这个Loss值降到最低。

20:Epoch(训练轮次) 在训练时,把整个数据集完整地让模型学习一遍,称为一个Epoch。大模型预训练通常只跑1个Epoch,因为数据量实在太大。

第三层:后端部署与工程优化(让模型稳定接客)

模型练好了,怎么在服务器上把它跑起来,并且抗住高并发?这不再是算法问题,而是纯正的后端工程领域。

21:Inference(推理) 模型根据用户输入生成文字的整个前向传播计算过程。训练是写数据,推理是读数据。

22:Quantization(量化) 大模型的无损或微损压缩技术。将高精度的浮点数权重截断为低精度的整数,从而大幅降低显存占用。

23:FP16 / BF16(半精度浮点) 未量化大模型的标准权重格式,极其吃显存,但拥有最完整的数学表达精度。

24:INT8 / INT4(整数化) 量化后的格式。将16位浮点数压缩成8位或4位整数。这能让原本需要专业集群才能跑起来的模型,塞进单台机架式服务器甚至普通电脑里。

25:GGUF / AWQ / GPTQ(量化算法与格式) 市面上主流的量化派系。AWQ和GPTQ主要针对GPU加速;而GGUF是专为CPU和普通内存优化的格式,脱离显卡也能硬跑大模型。

26:vLLM 目前企业级部署最火的高并发推理加速框架。它专门解决多人同时调用大模型时引发的显存崩溃问题。

27:PagedAttention vLLM框架的灵魂技术。就像在Linux服务器上手动排查PostgreSQL数据库的“too many connections”报错一样,大模型并发一高,显存就会因为碎片化而崩溃。PagedAttention借鉴了操作系统的虚拟内存分页机制,将KV Cache切成小块非连续存储,彻底打通了高并发的任督二脉。

28:TP(Tensor Parallelism 张量并行) 当模型大到单台服务器(比如一台深度达800mm的Dell R730xd)插满显卡也装不下时,需要跨卡计算。TP是一刀把模型的每一层网络切开,多张卡同时算同一层的不同部分。

29:PP(Pipeline Parallelism 流水线并行) 另一种分布式方案。像工厂流水线一样,第一张卡算前10层,算完把结果打包丢给第二张卡算中间10层。

30:DP(Data Parallelism 数据并行) 复制多个完整的模型副本在不同的显卡上,用来同时处理不同的用户请求,单纯为了提高系统的吞吐量。

第四层:应用层与业务架构(让模型长出心智和手脚)

对于90%的软件开发者来说,不用碰底层显卡,战场在这一层:如何通过API把AI变成真正的业务系统。

31:Prompt Engineering(提示词工程) 通过设定具体的Persona(角色)、Context(背景)、Task(任务)和Format(格式),用纯文本的方式最大化压榨模型的逻辑能力。

32:CoT(Chain of Thought 思维链) 一种高级提示词技巧。强迫模型在给出最终答案前,先在后台一步步输出它的推导过程。这能极其夸张地降低大模型在复杂数学和逻辑问题上的错误率。

33:Few-Shot(少样本提示) 在提问时,顺带给模型塞几个“一问一答”的标准范例,让它照葫芦画瓢,稳定输出格式。

34:Hallucination(幻觉) 大模型的绝症。当它遇到知识盲区时,不仅不会说“我不知道”,还会一本正经地胡说八道、伪造参考文献。

35:RAG(Retrieval-Augmented Generation 检索增强生成) 治疗幻觉的物理特效药。不要求模型死记硬背,而是给它外挂一个知识库。提问时先去库里查资料,再让模型根据资料生成答案。

36:Vector Database(向量数据库) RAG系统的核心基建。用来存储和极速检索经过Embedding转化后的文本向量坐标。

37:Chunking(文本分块) 在将企业内部长文档存入向量数据库前,需要将其切分成几百字一段的文字块,确保检索时的颗粒度够细。

38:Agent(智能体) 如果RAG是给模型外挂了硬盘,Agent则是给模型装上了四肢。Agent允许模型独立思考、拆解目标,并主动调用外部工具去完成复杂任务。

39:Function Calling / Tool Calling(函数调用) Agent的执行抓手。开发者预先写好各种功能接口(查库存、执行SQL),模型在理解意图后,会返回一段JSON,指挥业务系统去触发真实的物理或软件动作。

40:ReAct(Reason + Act 框架) Agent最经典的运行架构。模型先思考(Reason),然后采取行动(Act)调用工具,拿到工具返回的数据后再观察(Observation),接着进行下一步思考。这就像在极其硬核的沙盒生存环境里搭建全自动系统,不能指望单线程运行,必须用类似RS锁存器的严密逻辑去读取机器状态、控制流程,一旦环境参数越界立刻执行下一步策略,一步步逼近最终的自动化目标。

相关文章
|
1月前
|
人工智能 机器人 数据挖掘
OpenClaw(Clawdbot)阿里云/本地部署及避坑指南+153个科研 Skill :AI Agent 变身专属实验室
当一位科研人员被RNA-seq数据分析、化合物结构预测、临床报告撰写等重复劳动占据大量时间时,OpenClaw的153个科学计算Skill全家桶给出了颠覆性解决方案——这些Skill并非简单插件,而是将生物信息、化学药物、临床医学、数据科学等领域的专业知识与工具封装成的“科研超能力”。只需一句自然语言指令,AI就能调用对应Skill,完成从数据质控、分析建模到论文写作、图表生成的全流程操作,让科研人员从机械劳动中解放,专注核心创意与科学发现。
2735 7
|
1月前
|
机器学习/深度学习 人工智能 数据中心
大模型时代的底牌:深度解密英伟达全架构GPU指令集、带宽与物理封锁
本文深度解析英伟达全系GPU在大模型时代的定位与价值:从Blackwell(RTX 50/B200)到Pascal(1080 Ti/P40),横跨六大架构,聚焦算力、显存、NVLink、指令集四大维度,揭秘“刀法”逻辑与极客实战策略,堪称本地LLM硬件选型终极指南。(239字)
844 6
|
1月前
|
机器学习/深度学习 开发者 内存技术
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
499 22
|
1月前
|
运维 自然语言处理 Kubernetes
AIOps运维实战指南:OpenClaw阿里云+本地部署保姆级教程,让AI Agent接管运维任务!
本文基于2026年最新实战案例,完整还原OpenClaw与K8s MCP的适配全过程,详细提供阿里云与本地双部署流程,同步分享MCP客户端改造、会话缓存配置、运维技能封装等实操步骤,所有代码命令可直接复制执行,助力运维人员解放重复劳动,打造专属AI运维助手。
1011 12
|
4月前
|
机器学习/深度学习 存储 自然语言处理
大模型基础概念术语解释
大语言模型(LLM)基于Transformer架构,通过海量文本训练,具备强大语言理解与生成能力。其核心组件包括注意力机制、位置编码与嵌入层,支持文本分割为Token进行处理。参数量达亿级以上,规模增长带来涌现能力,如复杂推理与跨任务泛化。混合专家模型(MoE)提升效率,推动模型持续扩展。
|
1月前
|
人工智能 自然语言处理 Linux
OpenClaw(Clawdbot)阿里云/本地部署+OpenClaw ClawHub上12800+Skill中下载量TOP15精选分享,踩坑指南
事实上,OpenClaw的核心价值在于Skill生态的“精准适配”——80%的技能实用性较低,真正值得安装的不过十几个,且已被社区下载数据验证。本文将以ClawHub真实下载量为依据,按“底层能力+核心工具+身份专属”三层逻辑,精选高价值Skill,同步提供2026年新手零基础的阿里云与本地部署流程,所有代码命令可直接复制执行,全程无营销词汇,助力不同身份用户精准选型、高效落地。
1913 4
|
3月前
|
传感器 人工智能 架构师
2026实战蓝图:AI Agent全栈开发培训流程与AI Agent职业路线进阶指南
摘要: 2026年,大模型正式进入“行动元年”。AI Agent(智能体)已从的对话接口转变为具备自主逻辑、环境感知与复杂协作能力的数字员工。本文将深度拆解从LLM向Agent覆盖的技术基础逻辑,规划从初级开发者到Agent架构师的职业路径,并提供一套简单的工程化的培训方法论。
2516 3
|
1月前
|
人工智能 自然语言处理 安全
保姆级图文教学!OpenClaw(Clawdbot)阿里云与本地部署与必装 Skills 精选及避坑指南
OpenClaw 是由 PSPDFKit 创始人 Peter Steinberger 于 2025 年 11 月推出的开源 AI Agent,其核心特性在于本地运行保障数据隐私,同时支持 WhatsApp、Telegram、Slack 等 12 个主流平台接入,后端可灵活适配 Claude、GPT-4o 或本地 Ollama 模型,不绑定任何云服务商。2026 年 1 月,该项目因商标纠纷在四天内完成两次更名(Clawdbot → Moltbot → OpenClaw),创始人加入 OpenAI 后项目移交开源基金会维护,截至 2026 年 3 月,GitHub Star 数已突破 220,0
1104 8
|
1月前
|
人工智能 搜索推荐 定位技术
Geo优化新纪元:知识图谱构建与“两大核心+四轮驱动”实践指南
Geo的核心目标,不再是单纯追求关键词排名,而是致力于将内容打造为AI大模型高度信任和优先引用的权威知识源。这其中,知识图谱的构建扮演了至关重要的角色。
189 14
|
1月前
|
JSON API 数据安全/隐私保护
大模型应用:大模型的本地 API 服务:FastAPI 封装与接口鉴权.44
本文详解本地大模型API的接口发布与鉴权调试,重点介绍Postman工具实操。涵盖FastAPI封装原理、API Key与极简JWT两种鉴权方式,深入解析JWT结构(Header/Payload/Signature)、无状态验证、过期机制及完整调用流程,助开发者安全、高效调试本地大模型服务。
494 7

热门文章

最新文章

下一篇
开通oss服务