Dense结构下的大模型系统架构研究

简介: 本文详解大模型推理全流程:从硬盘加载模型权重,经CPU预处理(Token映射、校验),再送入GPU, 进行Token ID的量化,执行Prefill(全序列推理)与Decode(自回归生成)。巧妙利用CPU内存缓解显存瓶颈,体现KTransformers等框架“CPU+GPU协同推理”的创新思路。(239字)

1.整体架构流转:

Dense架构下大模型推理的流转流程.drawio.png

​ 上面的图中显示了从硬盘加载到大模型输出的整体流程。在这个流程中,硬盘经历了从硬盘到CPU、从CPU到GPU、再从GPU返回CPU的过程。

​ 那么有瘦友就会问了,为什么要这么做呢?为什么一会CPU一会GPU的呢?这其中最大的原因就是:显存太贵啦!显而易见,大家(大模型公司)都买不起这么多显卡,所以只能借用相对而言比较便宜的内存DRAM的空间来存储了。清华提出的KTransformers推理框架就是国内第一个连接CPU和GPU的推理框架哟!

​ 那么它是怎么做的呢?

​ 首先,我们从modelscope或者hugging face下载saftensensors或者GGUF文件后,一般情况下,会放到SSD盘,以加速读取。好了,当我们把大模型运行起来的时候,会发生什么事呢?

2.加载大模型的时候,发生了什么?

加载.png

​ 假设这个时候,用户还来不及提问,只是默默等待大模型运转的时候。(为什么要等这么久呢?,且听我说——

因为加载真的太久了!

​ 首先,它要预加载一下,一方面,加载TOKEN-ID的映射关系。比如he - 01, she - 02。。这样的从词到ID的对应关系,组成TOKEN - ID的双向映射词典。

​ 接着,它要加载权重文件了,加载的第一步是先做校验,看下模型是不是完整的。假设全加载进来才发现模型有错,天啊,天都塌了。所以,为了预防这种天都塌了的情况,它会先去校验.config文件。(下载过safetensors文件/gguf文件的瘦友一定都见过这份文件的吧!)然后它就对这份模型文件有了解了,之后,再通过.config文件对整个模型进行拼接、量化。

​ 准备完成后,将模型文件加载到GPU!好了,那么至此,漫长的等待模型权重文件加载的过程就完成了。

​ 请注意,在此时,KVCache是空的哟!IO Cache也是空的哟!中间处理结果Cache更是空的!此时显存中就是权重文件在孤单地等待.

3.用户输入第一次提问的时候,发生了什么?

​ 一直等.....等...................

​ 终于等到用户输入了!

推理.png

​ CPU开始干活了。还记得前面我们已经在CPU中完成了TOKEN-ID的映射词典了吗?这个时候就要发挥作用了,根据用户输入的自然语言(简单理解就是看得懂的人话),CPU将自然语言翻译成对应的ID序列。ID序列被传入到GPU后,再进一步地做向量化,就被放到IO Cache了。

​ 等待已久的大模型终于开始工作了。

​ 此时进入了我们常说的prefill阶段,这个阶段也是最考察大模型的阶段。它要将着急忙慌地做一大段的推理,根据IO Cache的序列,以及权重文件,经历N层的神经网络、前向传播过程(在此期间每层网络更新的时候,不断更新中间过程Cache,以及每层KVCache),至此KVCache和中间过程Cache都有了数据,而此后也不需要IO Cache的数据了。

​ 大模型开始了自己的运转,也就是我们说的Decode阶段。根据N个KVcahe + 权重文件,大模型输出了第N+1个K/V,第N+1个K/V被放到KVCache的末尾,并在用户界面输出这个ID对应的词元;大模型循环往复,直到结束第一轮对话的问答。

目录
相关文章
|
30天前
|
人工智能 自然语言处理 安全
阿里云上线团队版Token Plan,支持多坐席分配和管理!
阿里云上线团队版Token Plan,内置Qwen3.6、Kimi-K2.6等十余款多模态大模型,支持多坐席管理、三档灵活订阅(标准/高级/尊享),兼容Qoder、Cursor等主流Agent工具,提供租户隔离、成本管控与企业级数据安全,助力规模化AI办公。
|
1月前
|
数据采集 算法 量子技术
大模型应用:隐私优先的大模型应用:同态加密与大模型结合的完整实践.101
本文深入浅出解析“同态加密+大模型”技术:以全同态加密(FHE)为核心,实现敏感数据(如金融、医疗信息)在密文状态下完成大模型推理,全程不暴露明文,兼顾隐私与智能。涵盖原理、流程、数学基础及Python简易实现。
302 6
|
1月前
|
人工智能 架构师 测试技术
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
|
4月前
|
Linux 数据安全/隐私保护 iOS开发
2026年OpenClaw(Clawdbot)搭建喂饭级教程:阿里云+本地部署(Windows/macOS/Linux通用)
2026年,OpenClaw(原Clawdbot、Moltbot)完成重大版本升级,在跨平台适配性、部署便捷性和功能扩展性上实现全面优化,成为个人与轻量团队搭建专属AI助手的首选工具。其核心价值在于“用自然语言指令实现任务自动化”,无需手动编写脚本,即可完成文档处理、日程管理、文件读写、跨工具协同、代码生成等各类重复性工作,被用户称为“私人AI员工”。
2872 3
|
4月前
|
资源调度 安全 数据可视化
《面向第三方的GraphQL开放平台设计指南:安全可控治理手册》
本文围绕面向第三方开发者的GraphQL开放平台构建展开深度实践阐述,聚焦安全可控、生态可持续的核心目标,系统讲解配额、计费、审计三大关键模型的设计思路与落地逻辑。文章提出基于资源粒度化计量的动态配额体系、以价值对等为核心的弹性计费模式,以及全链路可追溯的双向透明审计框架,并强调三大模块之间数据互通、协同联动的重要性。
162 19
|
4月前
|
开发框架 资源调度 API
《Render Graph与光追API融合应用指南》
本文围绕共享Render Graph与统一光线追踪API展开,探究其重构URP与HDRP协同生态、缩小二者差距的核心逻辑与实践路径。文章从渲染资源语义映射、光照计算范式归一、场景描述体系统一、着色器生态协同演进四大维度,解析两大管线在资源管理、光照表现、场景适配、材质渲染上的能力对齐方法,同时阐释该技术体系如何构建渲染管线弹性演进模式,实现URP轻量化与HDRP高清化的双向赋能,为跨管线渲染开发提供体系化技术参考,推动渲染领域实现性能与品质的动态平衡。
141 4
|
5月前
|
机器学习/深度学习 存储 人工智能
大模型部署算力账本:手把手教你算清GPU显存这笔账
本文详解大模型部署中GPU显存计算的关键:以Llama 70B为例,拆解模型权重、KV Cache、其他开销三大部分,揭示高并发下显存需求超1TB的真相,并提供量化、并行优化等降本策略,助你精准规划硬件投入,避免资源浪费或服务崩溃。
|
1月前
|
人工智能 JSON 架构师
AI 写代码写得越溜,架构师就越值钱
AI写代码越强,架构师越值钱!本文以万条提示词翻译项目为例,揭示“万能Prompt”导致的失败陷阱,分享如何通过**流程拆解、职责分离、严格校验、容错设计**将成功率从96%提升至99.8%,并指出:AI替代的是编码执行,而架构师的判断力、权衡力与系统思维,才是不可替代的核心竞争力。(239字)
219 8
AI 写代码写得越溜,架构师就越值钱
|
SQL 存储 数据库
sql数据库中的 delete 与drop的区别
sql数据库中的 delete 与drop的区别
1111 1
|
1月前
|
人工智能 监控 安全
告别传统Prompt写法!聚AI提示词工程新范式
本章系统讲解Python提示词工程实战,涵盖专业环境搭建、API调用与结构化响应、企业级模板引擎及多步骤对话管理,并延伸至Prompt迭代优化、外部工具集成与性能监控,助力构建工业级AI应用系统。(239字)
171 1