Dense结构下的大模型系统架构研究
本文详解大模型推理全流程:从硬盘加载模型权重,经CPU预处理(Token映射、校验),再送入GPU, 进行Token ID的量化,执行Prefill(全序列推理)与Decode(自回归生成)。巧妙利用CPU内存缓解显存瓶颈,体现KTransformers等框架“CPU+GPU协同推理”的创新思路。(239字)
ZStack dGPU:让虚拟机里的 GPU 也能按需切分
ZStack dGPU 是面向虚拟机的纯软件GPU动态切分方案,无需NVIDIA vGPU授权或MIG硬件限制,支持主流NVIDIA GPU。实现显存与算力按需分配、即时回收,推理性能损耗仅约7%,23.5小时零故障运行。补齐IaaS层GPU细粒度调度能力,提升私有云GPU利用率。(239字)
containerd 节点 GPU 镜像预热记录
本次在GPU节点复现推理环境时,首遇镜像拉取失败(ImagePullBackOff),Pod卡在ContainerCreating状态。通过`crictl pull`逐源验证并预热vLLM、CUDA、Prometheus及pause镜像,明确分离镜像问题与模型问题,提升排障效率。(239字)