并行计算的搜索结果-阿里云开发者社区

Deephub

|

2天前

|

博文

深度学习推理慢？未必是模型问题。本文揭示8大ONNX Runtime工程优化技巧：合理选择执行提供器、精准控制线程、规避内存拷贝、固定Shape分桶、启用图优化、CPU量化加速、预热与微批处理、向量化前后处理。不改模型也能显著提升性能，低延迟落地关键在于细节调优。

# 机器学习/深度学习 # 并行计算 # 测试技术 # 异构计算 # Python

游客wsxnwr5p22s5w

|

3天前

|

博文

🚀 预训练技巧

预训练是大模型基石，涵盖混合精度、分布式训练等核心技术。混合精度提升效率与显存利用率；数据/模型/流水线并行支持超大模型训练；DeepSpeed的ZeRO优化显存，FlashAttention加速注意力计算，助力高效大规模训练。（239字）

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

t55cenhjuilvw

|

3天前

|

博文

预训练技巧

预训练是大模型能力的核心，涵盖混合精度、分布式训练等关键技术。混合精度通过FP16/BF16加速计算并节省显存；分布式训练采用数据、模型、流水线并行提升效率，结合All-Reduce等通信策略实现高效同步；DeepSpeed的ZeRO技术分区优化器状态、梯度与参数，显著降低显存占用；FlashAttention优化注意力机制，提升速度与内存效率；学习率策略如warmup与余弦退火助力稳定收敛。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

游客kwr7ple66hwxa

|

3天前

|

博文

🚀 预训练技巧

预训练是大模型的核心，涵盖混合精度、分布式训练等关键技术。混合精度提升效率与显存利用率；数据、模型、流水线并行协同加速训练；DeepSpeed的ZeRO优化显存，FlashAttention提升注意力计算效率，助力千亿参数模型高效训练。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

Jokerw

|

3天前

|

博文

🚀 预训练技巧

预训练是大模型能力基石，涵盖混合精度、分布式训练等核心技术。混合精度通过FP16/BF16加速计算、节省显存；分布式训练采用数据、模型、流水线并行突破算力与显存瓶颈；DeepSpeed的ZeRO技术降低显存冗余，支持千亿参数训练；FlashAttention优化注意力计算效率。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

哈你真皮

|

3天前

|

博文

基于矩量法(MoM)的单站RCS计算与通信天线MATLAB实现

# 并行计算 # 算法 # 数据可视化 # 异构计算

游客vhylg5zno4ifs

|

9天前

|

博文

预训练技巧

预训练是大模型的核心基础，涵盖混合精度、分布式训练、ZeRO优化、FlashAttention等关键技术，通过高效计算与显存优化，实现大规模模型的快速稳定训练。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

Deephub

|

10天前

|

博文

机器学习超参数调优：十个实用的贝叶斯优化（Bayesian Optimization）进阶技巧

贝叶斯优化虽强大，但直接使用常面临收敛慢、计算贵等问题。本文总结十大实战技巧：引入先验加速冷启动，动态调整采集函数打破平台期，对数变换处理量级差异，避免超-超参数过拟合，成本感知抑制资源浪费，混合随机搜索提升鲁棒性，并行化利用多GPU，正确编码类别变量，约束无效区域，以及集成代理模型降方差。结合这些策略，让BO更智能、高效，真正发挥超参调优潜力。

# 机器学习/深度学习 # 并行计算 # 文件存储 # 网络架构 # 异构计算

哈你真皮

|

10天前

|

博文

基于MATLAB的混沌优化算法求极值实现

混沌优化算法（Chaos Optimization Algorithm, COA）通过混沌运动的遍历性和随机性实现全局搜索，结合MATLAB的矩阵运算优势，可高效求解复杂函数极值。

# 机器学习/深度学习 # 并行计算 # 算法

INSVAST

|

10天前

|

博文

毅硕HPC | 一文详解HPC环境中的MPI并行计算

MPI主要用于分布式内存系统，适合跨多个服务器节点的大规模并行任务。MPI 不仅仅是一种编程接口，它是连接算法与硬件之间的桥梁，是实现“算得更快、看得更远”的关键技术支撑。

# 并行计算 # 算法 # Linux # C语言 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

并行计算