算法框架/工具

首页 标签 算法框架/工具
# 算法框架/工具 #
关注
10874内容
|
12小时前
|
从零开始用自定义 Triton 内核编写 FlashAttention-2
本文实现了FlashAttention-2前向传播:通过分块Q/K/V、流式处理K/V避免物化大矩阵,采用在线softmax保障数值稳定,支持因果/非因果模式,并用Triton autotuner调优、PyTorch验证。核心是IO感知设计,将内存复杂度从O(N²)降至O(N),显著提升长序列吞吐量。
PyTorch 入门指南:深度学习的瑞士军刀
PyTorch 是Meta开源的动态深度学习框架,以灵活的计算图、类NumPy的直观API和强大GPU加速著称。支持快速原型设计与生产部署,涵盖张量运算、自动求导、神经网络构建等核心功能,是研究与工程首选工具。(239字)
大模型训练显存优化实战指南:如何用有限显卡炼出“大丹”
本文是大模型显存优化实战指南,揭秘训练中80%显存消耗源于优化器状态。作者maoku系统梳理九大关键技术:混合精度、梯度检查点、ZeRO分片、算子融合等,助你用2–4张A100(而非8–16张)高效训练7B模型,成本直降75%,让中小企业与个人研究者也能“炼出大丹”。
【机翼】三维机翼几何进行耦合静态气弹性分析Matlab仿真
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信 🔥 内容介绍 针对三维机翼在气动载荷作用下 “结构变形 - 气动特性相互影响” 导致的设计精度不足问题,提出一种基于几何 - 气动 - 结构耦合的静态气弹性分析方法。首先建立参数化三维机翼几何模型(含翼型、展向扭转、前缘后掠等特征),采用 NURBS 曲面拟合实现高精度几何描述;其次构建 “Eu
|
5天前
|
torch.compile 加速原理:kernel 融合与缓冲区复用
PyTorch即时执行模式因频繁kernel启动和重复显存搬运导致内存带宽瓶颈,GPU算力利用率低。`torch.compile`通过TorchDynamo捕获FX图、TorchInductor实现操作融合、缓冲区复用与Triton自动调优,显著降低VRAM访问次数。官方测试显示平均加速20%–36%,一行代码即可启用,大幅提升推理吞吐与能效。
TensorFlow 入门指南
TensorFlow 是 Google 开源的主流机器学习框架,支持从研究到生产的全周期开发。其核心优势在于:灵活的数据流图、Keras 高级API易上手、底层API可深度定制,以及TensorBoard、TFLite、TF Serving等完善生态,广泛应用于图像识别、自然语言处理等领域。(239字)
【无人机路径规划】基于RRT和LQR线性控制器和非线性 PD 控制器实现无人机在非线性动力学模型下精准跟踪规划路径附matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信 🔥 内容介绍 对无人机在复杂环境(障碍物分布、气流扰动)下 “路径规划全局最优性” 与 “轨迹跟踪精准性” 的双重需求,提出一种融合 RRT 路径规划、LQR 线性控制器与非线性 PD 控制器的协同方案。首先建立无人机六自由度非线性动力学模型,考虑气动力、重力与陀螺效应,量化姿态角、线速度与控制
首个2步LoRA!2步实现Qwen-Image-2512高质量图片生成
阿里智能引擎推出Qwen-Image-2512-Turbo,将扩散模型压缩至仅2步生成,提速40倍——5秒内输出4张2K图,效果媲美原模型。融合Reverse-KL蒸馏、热启动与对抗学习,显著提升细节与真实性。已开源,支持ModelScope、呜哩AI及ComfyUI。
大模型显存优化实战手册:如何用有限显卡训练百亿参数模型?
AI博主maoku详解大模型显存优化:直击OOM痛点,拆解参数/梯度/优化器/激活值四大显存“大户”,揭秘1:1:6内存占比规律;实操九大技巧——梯度检查点、BF16混合精度、CPU卸载、算子融合等,并验证8卡80G全量微调72B模型的落地效果。省钱、提效、普惠,一文掌握显存优化核心方法论。(239字)
|
8天前
|
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
本文从零实现LLM-JEPA:将大语言模型与联合嵌入预测架构(JEPA)结合。通过span遮蔽构造context/target双视图,用可训练编码器预测目标编码器在遮蔽位置的归一化嵌入,以余弦距离为对齐损失,并通过EMA稳定训练。代码简洁清晰,逐行注释,助你深入理解JEPA核心思想。
免费试用