并行计算

首页 标签 并行计算
# 并行计算 #
关注
5285内容
|
11小时前
|
TensorRT 和 ONNX Runtime 推理优化实战:10 个降低延迟的工程技巧
模型性能优化关键在于细节:固定输入形状、预热、I/O绑定、精度量化、图优化与CUDA Graph等小技巧,无需重构代码即可显著降低延迟。结合ONNX Runtime与TensorRT最佳实践,每个环节节省几毫秒,累积提升用户体验。生产环境实测有效,低延迟从此有据可依。
解决方案体验 | 基于 GPU 云服务器微调 Qwen3 模型
本方案通过模型蒸馏,利用大模型生成标注数据,微调Qwen3-0.6B小模型,实现高效、低成本的结构化信息抽取。结合ms-swift与vLLM框架,仅需一行命令完成训练与部署,准确率从14%提升至98%,显著提升推理速度与性价比,适用于物流填单等实际场景。
为什么 OpenSearch 向量检索能提速 13 倍?
本文介绍在最新的 OpenSearch 实践中,引入 GPU 并行计算能力 与 NN-Descent 索引构建算法,成功将亿级数据规模下的向量索引构建速度提升至原来的 13 倍。
阿里云ADB-PG数据库技术加持!钉钉AI表格突破1000万热行
自钉钉AI表格面世后,阿里云ADB-PG数据库团队便与钉钉联合作战,研发全新的存算一体应用架构,以应对用户爆发式增长的计算需求。这一架构让钉钉AI表格在海量数据、高频变动、多表关联、实时计算等实际场景中,可实现超大规模存储、AI存算一体、超强并行计算等能力,且相比同类产品更具性价比,更真实可用。
|
3天前
|
阿里云服务器ECS包年包月、按量付费和抢占式实例有什么区别?如何选择更省钱?
阿里云ECS提供包年包月、按量付费和抢占式实例三种计费模式。包年包月适合长期稳定使用,价格优惠,支持备案;按量付费按小时计费,灵活但成本较高,适合短期或突发业务;抢占式实例价格低至1折,但可能被自动释放,适合无状态应用。根据使用场景选择更省钱。
|
3天前
|
阿里云服务器ECS付费类型:包年包月、按量付费和抢占式实例详细介绍
阿里云ECS提供三种付费模式:包年包月适合长期稳定使用,价格优惠,支持备案;按量付费按小时计费,灵活适用于短期或突发业务;抢占式实例价格低至1折,但可能被回收,适合无状态、容错性强的应用。根据业务需求选择合适模式可优化成本与稳定性。
超长序列并行之Ulysses + Ring-Attention技术原理与实现
本文介绍大模型长序列训练中的显存优化技术,重点解析Ulysses与Ring-Attention的融合方案。通过序列并行降低显存占用,结合zigzag切分与padding_free适配,实现高效多模态训练,在3B模型上显存从75GB降至18GB,显著提升长序列训练可行性。
|
5天前
| |
来自: 云原生
MATLAB R2024b 数据分析软件,安装详细步骤,附安装包
MATLAB R2024b 发布,聚焦性能提升与稳定性优化,支持GPU加速、5G/6G工具链及HDL代码生成,新增NPU硬件支持,配合深色界面与调试增强,助力高效科学计算与工程设计。
|
8天前
| |
Qwen3 Next 在 TensorRT LLM 上的部署指南
本指南介绍如何在TensorRT LLM框架上部署Qwen3-Next-80B-A3B-Thinking模型,基于默认配置实现快速部署。涵盖环境准备、Docker容器启动、服务器配置与性能测试,支持BF16精度及MoE模型优化,适用于NVIDIA Hopper/Blackwell架构GPU。
免费试用