并行计算

首页 标签 并行计算
# 并行计算 #
关注
5380内容
batch size、sequence length 对显存的非线性影响
本文揭示大模型训练OOM的根源:batch size与sequence length并非独立线性因子,而是以乘法甚至平方(如attention的O(L²))方式非线性放大中间态显存。显存不是“用完”,而是被临界点“触发”崩溃。工程调优应优先关注单样本“重量”(length),而非盲目试探batch。
|
1月前
|
阿里云服务器多少钱一年?2026年新版阿里云服务器配置与价格表解析
在云计算应用日益普及的当下,阿里云服务器凭借稳定的性能、灵活的配置选择和覆盖广泛的地域支持,成为个人开发者、中小企业及大型企业数字化转型的重要基础设施。2026年,阿里云对服务器产品线进行了全面优化,推出了涵盖轻量应用服务器、ECS云服务器、GPU服务器等多个系列的产品,各系列在配置规格、价格定位和适用场景上形成了清晰的区分,满足不同用户的多样化需求。本文基于官方公布的配置参数与价格信息,对2026年阿里云服务器的产品体系、核心配置、价格标准及适用场景进行详细解析,为用户选择合适的服务器提供参考。
【车间调度】基于粒子群算法求解置换流水车间调度问题PFSP附Matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。 🔥 内容介绍 一、引言 在当今竞争激烈的制造业环境中,车间调度作为生产管理的核心环节,对企业的生产效率、成本控制和市场竞争力起着决定性作用。合理的车间调度能够优化资源配置,减少生产周期,降低生产成本,从而提高企业的经济效益和市场响应能力。 置换流水车间调度问题(Permutation F
别再混为一谈!万字拆解内存与显存:决定你模型训练成败的硬件真相
你好,我是AI科普博主狸猫算君!本文深入浅出解析内存(RAM)与显存(VRAM)的本质区别:前者是CPU的通用办公桌,后者是GPU的专属高速实验室。重点破除“大内存=能训大模型”误区,揭示显存带宽、容量为何直接决定AI训练成败,并提供监控、排错与硬件选配实战指南。(239字)
|
1月前
|
显卡驱动、CUDA、NVIDIA Container Toolkit 内网离线安装教程
本文详解无网络环境下私有化AI部署的离线环境搭建:涵盖NVIDIA驱动(550.142)、CUDA 12.4、NVIDIA Container Toolkit及Docker的全流程离线安装与配置,适配双RTX 3090服务器,含依赖处理、冲突解决与完整验证步骤。
|
1月前
| |
Docker+vLLM内网离线部署Qwen3 流程
本教程详解如何在A10四卡内网环境中,通过Docker+ vLLM离线部署Qwen3-32B/Qwen3-VL-30B-Instruct大模型。涵盖环境准备、镜像离线导入、模型下载、容器启动及参数调优,支持FP8/KV缓存/张量并行等高性能配置,助力安全高效私有化推理
|
1月前
| |
大模型应用:基于本地大模型驱动的 MapReduce 文本总结与分类系统全解析.13
本文介绍轻量化MapReduce在本地大模型文本处理中的实践:以Qwen1.5驱动的超长文本总结和BERT驱动的新闻分类为双案例,通过“分治-并行-聚合”范式,解决单进程内存溢出、算力不足等问题,在CPU环境下高效完成大规模中文文本处理。
|
2月前
|
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
本文从零实现LLM-JEPA:将大语言模型与联合嵌入预测架构(JEPA)结合。通过span遮蔽构造context/target双视图,用可训练编码器预测目标编码器在遮蔽位置的归一化嵌入,以余弦距离为对齐损失,并通过EMA稳定训练。代码简洁清晰,逐行注释,助你深入理解JEPA核心思想。
|
2月前
|
架构师的新形态:成为AI世界的“翻译官”——跨学科协作中的核心Agent职业路线图
本文揭示AI Agent落地核心瓶颈——技术与业务间的“理解鸿沟”,提出“π型人才”新范式:左腿深耕行业、右腿通晓AI原理、横梁强在设计与翻译。聚焦“AI Agent解决方案架构师”这一桥梁型角色,提供18个月能力跃迁路径,赋能复合背景者成为人机协作的关键枢纽。(239字)
免费试用