PyTorch

首页 标签 PyTorch
# PyTorch #
关注
4968内容
|
22小时前
| |
大模型应用:矩阵乘加(GEMM)全解析:大模型算力消耗的逻辑与优化.68
GEMM(矩阵乘加)是大模型算力核心,占Transformer计算量90%以上。本文系统解析其数学原理、高维适配、算力测算公式,并详解INT8/INT4量化、矩阵分块、硬件加速与批处理四大优化策略,结合代码示例与性能监控方法,助力高效推理落地。
|
3天前
| |
大模型应用:大模型算力优化方案:识别突破隐性瓶颈达到效能最大化.65
本文深度剖析大模型落地中“算力跑不满”的隐性瓶颈,从系统(CUDA/驱动/OS)、模型(注意力冗余、激活函数、权重稀疏)、数据(加载、分词、格式)三维度拆解,并提供量化评估方法与场景化优化方案(个人开发/企业推理/边缘部署),助力榨干硬件潜力。
北大重磅开源Helios!首个14B单卡实时长视频生成模型
北大与字节联合发布Helios:首个单卡H100上达19.5 FPS的14B参数视频生成模型,支持分钟级高质量T2V/I2V/V2V生成,突破长视频漂移与速度瓶颈,开源可商用。(239字)
|
5天前
|
AI算力狂飙背后的秘密:当“稳重老哥”Gloo遇上“极速引擎”NCCL
本文深度解析AI大模型训练中两大核心通信后端——Gloo与NCCL:前者是跨平台、高兼容的“稳健使者”,适配CPU及普通网络;后者是NVIDIA定制的“性能怪兽”,依托NVLink/RDMA实现GPU间纳秒级同步。文章以AllReduce等通信原语为切入点,对比其架构差异、适用场景与底层原理,并揭示分布式训练中通信瓶颈、拓扑感知、计算-通信重叠等关键工程实践,助开发者穿透框架表层,直抵算力调度本质。(239字)
银行卡余额修改器,ai模型G-code计算
基于神经网络/规则引擎的加工参数预测(进给率、转速等),支持G-code自动生成与导出
【基于DQN和PyTorch无人机】【多智能体深度Q学习(MA-DQL)】分布式用户连接最大化在基于无人机的通信网络中研究附Python代码
​ ✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。 🔥 内容介绍 一、无人机通信网络的发展与挑战 无人机通信网络的兴起 面临的挑战 二、分布式用户连接最大化的重要性 提升通信服务质量 优化资源利用效率 三、多智能体深度 Q 学习(MA - DQL)原理 深度 Q 学习(DQN)基础 多智能体扩展 四、基于
Python高阶知识概览(终)
教程来源 https://app-ad5sxofh8phd.appmiaoda.com Python高阶开发核心:C扩展(绕过GIL提升性能)、Cython桥接、多维性能分析工具;底层I/O与事件驱动网络编程;事件总线、管道过滤器等架构模式;PyTorch自定义扩展;最终构建系统级工程思维。
免费试用