拒绝黑盒飞行:40个核心术语拆解LLM从算力层到Agent层的工程架构

简介: 本文是一份大模型全链路硬核字典,用通俗语言拆解40个核心术语,覆盖物理层(Token、Transformer、VRAM等)、训练层(Pre-training、RLHF、LoRA等)、部署层(vLLM、量化、并行技术)及应用层(RAG、Agent、CoT等),助开发者轻松翻越“名词高墙”。

大语言模型(LLM)的迭代速度极其恐怖,与之伴随的是一套如同天书般的专业词汇表。很多时候技术本身并不难懂,真正阻碍开发者和架构师的,是那堵由生僻字和英文缩写砌成的“名词高墙”。

要彻底吃透大模型,必须打通全链路。这篇文章将作为一份全景式的硬核字典,沿着大模型的生命周期——从底层算力、训练炼丹、服务器部署,一直到上层的复杂业务应用,将整整40个关键术语逐一拆解。

第一层:物理层与核心算力(模型是如何思考的?)

在把大模型跑起来之前,我们需要先看看它的机械结构,看看这个黑盒里到底装着什么传感器和处理器。

1:Token(词元) 文本的最小计价与计算单位。模型不认识人类的字母或汉字,它只吃数字。Token就是被切碎的文本碎片,可能是一个字,也可能是一个词根。你可以把它看作是信息处理系统中的“基础输入脉冲”。

2:Parameter(参数量,如7B, 70B) 神经网络中节点间连接的权重(B代表Billion,十亿)。把模型想象成一个极其庞大且精密的信号处理器,参数就是上面数以百亿计的可调电位器。

3:Transformer 目前统治大模型的底层神经网络架构。它的出现彻底终结了早期AI像金鱼一样“只有七秒记忆”的窘境,是整个LLM时代的基石。

4:Attention Mechanism(注意力机制) Transformer的核心魔法。它让模型在处理当前词时,能进行全局运算,精准“注意”到上下文中距离很远但逻辑强相关的词,从而真正理解语义。

5:Context Window(上下文窗口) 模型在一次会话中能记住的极限文本长度。这就好比微控制器内部有限的SRAM,内存空间一旦塞满,再输入新的指令,最早读入的数据就会被无情挤掉。

6:VRAM(显存) 大模型的“血液”。与普通软件吃CPU内存不同,LLM极其依赖显卡的显存大小。显存决定了你能跑多大参数的模型,以及上下文窗口能开到多大。

7:KV Cache(键值缓存) 推理加速的绝对核心技术。模型在逐字生成回答时,会把之前已经算过的中间结果(Key和Value张量)缓存在内存里,避免重复运算。这是一种用显存空间换取极端计算速度的工程妥协。

8:MoE(Mixture of Experts 混合专家架构) 一种“按需调用”的聪明架构。它把大模型拆分成多个“专家网络”,外加一个路由网络。遇到代码问题调代码专家,遇到物理问题调物理专家,在不增加单次计算量的前提下,大幅拉高了模型的总参数量。

9:Embedding(词嵌入) 将人类语言转化为高维空间中的浮点数坐标(向量)。在这个数学空间里,语义相近的词,其物理坐标也靠得极近。

10:Base Model(基座模型 / 基础模型) 未经任何特殊加工的原始模型。它包含了庞大的世界知识,但只会做“文字接龙”,不懂得如何以一问一答的助手形态与人类交流。

第二层:重工业炼丹术(模型的训练与精加工)

获取一个基础模型后,需要经过严格的工业化加工,这就好比金属制造,从粗糙的矿石一步步提纯、拉丝、成型。

11:Pre-training(预训练) 第一阶段的“暴力美学”。消耗海量算力,将互联网的原始数据喂给模型。这就好比将粗铜锭熔炼成标准的铜条,赋予了它基础的物理属性和语言规律。

12:SFT(Supervised Fine-Tuning 有监督微调) 第二阶段的精加工。使用高质量的人工撰写的“指令-回答”对来训练模型。这就像是用高精度的拉丝模具,将粗犷的铜条强行拉伸成0.04mm的极细微线,规范它的输出格式,让它学会听指令。

13:RLHF(基于人类反馈的强化学习) 第三阶段的价值观对齐。让人类给模型的多个回答打分,训练一个“奖励模型”来纠正主模型,使其不讲脏话、不输出有害信息。

14:DPO(Direct Preference Optimization 直接偏好优化) RLHF的进阶版。直接用数学推导将人类的偏好整合进微调过程中,省略了复杂的奖励模型,是目前主流的对齐手段。

15:LoRA(Low-Rank Adaptation 低秩微调) 极低成本的定制化方案。它不需要改动模型原本庞大的几百亿参数,而是在旁边旁路注入两个极小的矩阵。这就像给一台庞大的退火机外挂了一个自动贴标机械臂——不需要重构整台机器的机械结构,只需在末端增加一个小模块就能实现专属功能。

16:QLoRA 将LoRA与量化技术结合,让模型微调的门槛降到了极低,单张消费级显卡就能完成企业级私有数据的微调。

17:Checkpoint(权重存档点) 训练过程中定期保存的模型状态快照。如果在训练时系统崩溃,可以从上一个Checkpoint恢复,而不必从头再来。

18:Overfitting(过拟合) 模型在训练数据上表现极好,但在实际应用中像个傻子。因为它把训练集“死记硬背”了下来,失去了举一反三的泛化能力。

19:Loss Function(损失函数) 衡量模型当前输出与标准答案之间差距的数学公式。训练大模型的过程,本质上就是不断调整几十亿个参数,让这个Loss值降到最低。

20:Epoch(训练轮次) 在训练时,把整个数据集完整地让模型学习一遍,称为一个Epoch。大模型预训练通常只跑1个Epoch,因为数据量实在太大。

第三层:后端部署与工程优化(让模型稳定接客)

模型练好了,怎么在服务器上把它跑起来,并且抗住高并发?这不再是算法问题,而是纯正的后端工程领域。

21:Inference(推理) 模型根据用户输入生成文字的整个前向传播计算过程。训练是写数据,推理是读数据。

22:Quantization(量化) 大模型的无损或微损压缩技术。将高精度的浮点数权重截断为低精度的整数,从而大幅降低显存占用。

23:FP16 / BF16(半精度浮点) 未量化大模型的标准权重格式,极其吃显存,但拥有最完整的数学表达精度。

24:INT8 / INT4(整数化) 量化后的格式。将16位浮点数压缩成8位或4位整数。这能让原本需要专业集群才能跑起来的模型,塞进单台机架式服务器甚至普通电脑里。

25:GGUF / AWQ / GPTQ(量化算法与格式) 市面上主流的量化派系。AWQ和GPTQ主要针对GPU加速;而GGUF是专为CPU和普通内存优化的格式,脱离显卡也能硬跑大模型。

26:vLLM 目前企业级部署最火的高并发推理加速框架。它专门解决多人同时调用大模型时引发的显存崩溃问题。

27:PagedAttention vLLM框架的灵魂技术。就像在Linux服务器上手动排查PostgreSQL数据库的“too many connections”报错一样,大模型并发一高,显存就会因为碎片化而崩溃。PagedAttention借鉴了操作系统的虚拟内存分页机制,将KV Cache切成小块非连续存储,彻底打通了高并发的任督二脉。

28:TP(Tensor Parallelism 张量并行) 当模型大到单台服务器(比如一台深度达800mm的Dell R730xd)插满显卡也装不下时,需要跨卡计算。TP是一刀把模型的每一层网络切开,多张卡同时算同一层的不同部分。

29:PP(Pipeline Parallelism 流水线并行) 另一种分布式方案。像工厂流水线一样,第一张卡算前10层,算完把结果打包丢给第二张卡算中间10层。

30:DP(Data Parallelism 数据并行) 复制多个完整的模型副本在不同的显卡上,用来同时处理不同的用户请求,单纯为了提高系统的吞吐量。

第四层:应用层与业务架构(让模型长出心智和手脚)

对于90%的软件开发者来说,不用碰底层显卡,战场在这一层:如何通过API把AI变成真正的业务系统。

31:Prompt Engineering(提示词工程) 通过设定具体的Persona(角色)、Context(背景)、Task(任务)和Format(格式),用纯文本的方式最大化压榨模型的逻辑能力。

32:CoT(Chain of Thought 思维链) 一种高级提示词技巧。强迫模型在给出最终答案前,先在后台一步步输出它的推导过程。这能极其夸张地降低大模型在复杂数学和逻辑问题上的错误率。

33:Few-Shot(少样本提示) 在提问时,顺带给模型塞几个“一问一答”的标准范例,让它照葫芦画瓢,稳定输出格式。

34:Hallucination(幻觉) 大模型的绝症。当它遇到知识盲区时,不仅不会说“我不知道”,还会一本正经地胡说八道、伪造参考文献。

35:RAG(Retrieval-Augmented Generation 检索增强生成) 治疗幻觉的物理特效药。不要求模型死记硬背,而是给它外挂一个知识库。提问时先去库里查资料,再让模型根据资料生成答案。

36:Vector Database(向量数据库) RAG系统的核心基建。用来存储和极速检索经过Embedding转化后的文本向量坐标。

37:Chunking(文本分块) 在将企业内部长文档存入向量数据库前,需要将其切分成几百字一段的文字块,确保检索时的颗粒度够细。

38:Agent(智能体) 如果RAG是给模型外挂了硬盘,Agent则是给模型装上了四肢。Agent允许模型独立思考、拆解目标,并主动调用外部工具去完成复杂任务。

39:Function Calling / Tool Calling(函数调用) Agent的执行抓手。开发者预先写好各种功能接口(查库存、执行SQL),模型在理解意图后,会返回一段JSON,指挥业务系统去触发真实的物理或软件动作。

40:ReAct(Reason + Act 框架) Agent最经典的运行架构。模型先思考(Reason),然后采取行动(Act)调用工具,拿到工具返回的数据后再观察(Observation),接着进行下一步思考。这就像在极其硬核的沙盒生存环境里搭建全自动系统,不能指望单线程运行,必须用类似RS锁存器的严密逻辑去读取机器状态、控制流程,一旦环境参数越界立刻执行下一步策略,一步步逼近最终的自动化目标。

相关文章
|
6天前
|
人工智能 安全 API
CoPaw:5分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
8天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
9838 78
|
6天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
5339 14
|
7天前
|
人工智能 自然语言处理 机器人
保姆级教程:Mac本地搭建OpenClaw及阿里云上1分钟部署OpenClaw+飞书集成实战指南
OpenClaw(曾用名Clawdbot、Moltbot)作为2026年最热门的开源个人AI助手平台,以“自然语言驱动自动化”为核心,支持对接飞书、Telegram等主流通讯工具,可替代人工完成文件操作、日历管理、邮件处理等重复性工作。其模块化架构适配多系统环境,既可以在Mac上本地化部署打造私人助手,也能通过阿里云实现7×24小时稳定运行,完美兼顾隐私性与便捷性。
5356 12
|
9天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
5637 14
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
4天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
2828 6
|
2天前
|
人工智能 JavaScript 测试技术
保姆级教程:OpenClaw阿里云及本地部署+Claude Code集成,打造全能 AI 编程助手
在AI编程工具百花齐放的2026年,Anthropic推出的Claude Code凭借72.5%的SWE-bench测试高分、25倍于GitHub Copilot的上下文窗口,成为开发者追捧的智能编程助手。但单一工具仍有局限——Claude Code擅长代码生成与审查,却缺乏灵活的部署与自动化执行能力;而OpenClaw(前身为Clawdbot)作为开源AI代理框架,能完美弥补这一短板,通过云端与本地双部署,实现“代码开发-测试-部署”全流程自动化。
1469 13
|
4天前
|
人工智能 JavaScript API
阿里云及本地 Windows 部署(OpenClaw+Ollama)保姆级教程及技能扩展与问题排查
OpenClaw(原Clawdbot)作为2026年主流的开源AI智能体工具,具备系统级操作权限,能将自然语言指令转化为文件操作、程序控制等实际行为。搭配轻量级本地大模型管理工具Ollama,可实现本地推理、数据私有化存储的全闭环;而阿里云提供的云端部署方案,则能满足7×24小时稳定运行需求。本文将详细拆解2026年阿里云与本地(Windows 11系统)部署OpenClaw的完整流程,包含Ollama模型定制、技能扩展及常见问题排查,所有代码命令可直接复制执行,零基础用户也能快速上手。
1820 3

热门文章

最新文章