异构计算

首页 标签 异构计算
# 异构计算 #
关注
19113内容
|
2月前
|
GitHub热搜,腾讯黑科技炸场!PhotoMaker:10秒定制真人级头像,百万开发者已疯狂
PhotoMaker 是腾讯 ARC 联合南开大学推出的高效人像生成项目,荣膺 CVPR 2024。支持输入人脸照片与文本描述,秒级生成高保真图像,兼容多种风格与插件,无需额外训练,广泛适用于头像定制、影视后制、虚拟角色创建等场景。
FLUX.1 Kontext 的全生态教程来啦!AIGC专区在线试玩!
Flux.1 Kontext [dev] 开源模型大家都用上了吗?小编汇总了3个使用教程,打包送上!
|
3月前
| |
来自: 云原生
基于 AI 网关和 llmaz,提升 vLLM 推理服务可用性和部署易用性的实践
本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务,并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力,构建稳定、高可用的大模型服务平台。
|
3月前
| |
Arctic长序列训练技术:百万级Token序列的可扩展高效训练方法
Arctic长序列训练(Arctic Long Sequence Training, ALST)技术能够在4个H100节点上对Meta的Llama-8B模型进行高达1500万token序列的训练,使得长序列训练在标准GPU集群甚至单个GPU上都能实现快速、高效且易于部署的执行。
|
3月前
| |
小模型当老师效果更好:借助RLTs方法7B参数击败671B,训练成本暴降99%
强化学习教师模型代表了训练推理语言模型的范式转变。通过从答案开始并专注于解释生成,RLT将训练过程转化为师生协作游戏,实现多方共赢:教师学会有效教学,学生从定制化课程中受益,工程师获得性能更好且成本更低的模型解决方案。
5倍加速!PAI-EAS在线服务优化:ResNet50模型推理性能调优指南
本文系统分析ResNet50推理性能瓶颈,结合TensorRT加速、模型剪枝、批量推理及CUDA多流并行等技术,实现吞吐量提升56.7倍、延迟降低至22ms,同时优化GPU利用率与服务稳定性,提供完整的生产部署验证方案。
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略
本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。
免费试用