异构计算

首页 标签 异构计算
# 异构计算 #
关注
19146内容
|
3月前
| |
小模型当老师效果更好:借助RLTs方法7B参数击败671B,训练成本暴降99%
强化学习教师模型代表了训练推理语言模型的范式转变。通过从答案开始并专注于解释生成,RLT将训练过程转化为师生协作游戏,实现多方共赢:教师学会有效教学,学生从定制化课程中受益,工程师获得性能更好且成本更低的模型解决方案。
5倍加速!PAI-EAS在线服务优化:ResNet50模型推理性能调优指南
本文系统分析ResNet50推理性能瓶颈,结合TensorRT加速、模型剪枝、批量推理及CUDA多流并行等技术,实现吞吐量提升56.7倍、延迟降低至22ms,同时优化GPU利用率与服务稳定性,提供完整的生产部署验证方案。
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略
本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。
PAI-TurboX:面向自动驾驶的训练推理加速框架
PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践
|
3月前
|
模型被挤了?立即查看服务器GPU/CPU占用,别再误杀他人进程!
模型在服务器上跑得好好的,突然就“卡”了甚至被挤掉?别急着抱怨!本文手把手教你如何优雅地查看共享服务器的CPU和GPU占用情况,学会做一个有素质的“共享玩家”,告别模型被挤的尴尬!文末还有硬核忠告和Linux学习建议。
永久修改机器码工具, cf永久解除机器码, 修改电脑机器码【一键版】
机器码(又称硬件指纹)是由计算机硬件组件特征值生成的唯一标识符,通常包含以下核心组件: 主板序列号(SMBIOS DMI信息)
语音生成+情感复刻,Cosyvoice2.0 极简云端部署
CosyVoice2凭借多语言生成、零样本生成等优势,功能与性能显著提升。阿里云Function AI推出语音合成新模板,一键部署CosyVoice2.0模型,解决传统方案中参数调节不便、部署运维复杂、成本高昂等问题,助力企业高效落地AI语音应用。
免费试用