PyTorch

首页 标签 PyTorch
# PyTorch #
关注
4969内容
|
3月前
|
torch.compile 加速原理:kernel 融合与缓冲区复用
PyTorch即时执行模式因频繁kernel启动和重复显存搬运导致内存带宽瓶颈,GPU算力利用率低。`torch.compile`通过TorchDynamo捕获FX图、TorchInductor实现操作融合、缓冲区复用与Triton自动调优,显著降低VRAM访问次数。官方测试显示平均加速20%–36%,一行代码即可启用,大幅提升推理吞吐与能效。
大模型显存优化实战手册:如何用有限显卡训练百亿参数模型?
AI博主maoku详解大模型显存优化:直击OOM痛点,拆解参数/梯度/优化器/激活值四大显存“大户”,揭秘1:1:6内存占比规律;实操九大技巧——梯度检查点、BF16混合精度、CPU卸载、算子融合等,并验证8卡80G全量微调72B模型的落地效果。省钱、提效、普惠,一文掌握显存优化核心方法论。(239字)
|
4月前
|
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
本文从零实现LLM-JEPA:将大语言模型与联合嵌入预测架构(JEPA)结合。通过span遮蔽构造context/target双视图,用可训练编码器预测目标编码器在遮蔽位置的归一化嵌入,以余弦距离为对齐损失,并通过EMA稳定训练。代码简洁清晰,逐行注释,助你深入理解JEPA核心思想。
|
4月前
|
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案
本文深入剖析DQN的过估计偏差根源,系统讲解Double DQN(解耦动作选择与评估)、Dueling DQN(分离状态值与动作优势)、优先经验回放(按TD误差智能采样)三大核心改进,并用PyTorch从零实现,最后对比CleanRL专业实现,助你扎实掌握强化学习进阶技巧。
ComfyUI 安装踩坑全记录:Python 版本冲突、CUDA 报错、GitHub 拉取失败如何解决
本文详述Windows下ComfyUI环境配置的典型“雪崩式”故障:Python多版本冲突(3.10/3.11/3.14)、CUDA与PyTorch错配、启动器脱离venv、Git失效及GitHub插件(Impact-Pack/SAM2)因网络不稳定反复拉取失败。核心揭示——问题根源不在技术细节,而在各工具对“干净系统”的隐含假设彼此冲突。全文聚焦实操解法:强制指定venv路径、精准安装cu121版PyTorch、独立配置Git代理,并强调“信venv、不信系统Python”的关键原则。助力新手快速避坑、稳态运行。(239字)
|
4月前
| |
大模型应用:概率驱动:大模型文字预测的核心机制与理论基础.5
本文深入浅出地解析大模型文字预测原理:将文本编码为向量,通过Transformer自注意力机制建模上下文,输出下一字/词的概率分布;详述预训练(海量文本填空学习)与微调过程,并以PyTorch代码实例展示字符级RNN/Transformer预测全流程。
|
4月前
|
告别“左右横跳”:深度强化学习PPO算法为何是训练AI的黄金准则?
本文深入浅出地解析了深度强化学习中的PPO算法,从原理到实战,手把手教你用PyTorch实现倒立摆控制。揭秘PPO为何成为OpenAI的“看家本领”,适合想入门DRL的开发者与爱好者。
|
4月前
|
AI时代的“义务教育”:深度拆解LLM预训练核心原理与PyTorch源码实现
本文深入解析大模型预训练核心,以Qwen2.5为例,从Tokenizer、RoPE位置编码到GQA注意力机制,拆解LLM如何通过海量数据“炼”成。涵盖架构演进、关键技术与代码实现,带你手把手理解大模型“义务教育”阶段的底层逻辑。
免费试用