并行计算的搜索结果_第18页-阿里云开发者社区

Deephub

|

7月前

|

博文

|

Triton是一款开源GPU编程语言与编译器，专为AI和深度学习领域设计，提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核，性能接近专家级CUDA代码，但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略，以及与CUDA和PyTorch的技术对比。此外，还探讨了其在实际项目中的应用场景，如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程，降低了开发门槛，同时保持高性能表现，成为连接高级框架与底层硬件的重要工具。

# 并行计算 # PyTorch # 算法框架/工具 # 开发者 # 异构计算

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制，特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因，并通过实际案例（如Llama 1B模型训练）展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术，显著提升了内存使用效率，减少了系统调用开销。此外，文章还介绍了高级优化方法，包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

# GPU云服务器 # 缓存 # 并行计算 # PyTorch # 算法框架/工具 # 异构计算

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

# 图像识别 # 人工智能 # 并行计算 # 测试技术 # 网络架构 # 内存技术

modelscope

|

7月前

|

博文

|

来自： ModelScope模型即服务

智源开源FlagOS升级：首次实现DeepSeek-R1满血版多种芯片高效快速部署

近日，DeepSeek-R1以低训练成本实现比肩一流模型的高性能并全面开源，引发了海量部署及场景应用，推理计算需求迅猛增长。

# 自然语言处理 # 并行计算 # PyTorch # 芯片 # AI芯片

技术自由圈/原疯狂创客圈

|

7月前

|

博文

AI部署架构：A100、H100、A800、H800、H20的差异以及如何选型？开发、测试、生产环境如何进行AI大模型部署架构？

# 机器学习/深度学习 # 人工智能 # 并行计算 # 芯片 # 异构计算

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题，分析其根源为预编译二进制文件不支持sm_120架构，并提出解决方案：使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件，成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略，强调Nightly构建版本和环境一致性的重要性，为开发者提供参考。

# GPU云服务器 # 机器学习/深度学习 # 并行计算 # PyTorch # 算法框架/工具 # 异构计算

lorelai

|

7月前

|

博文

|

来自：大数据与机器学习

【pytorch】【202504】关于torch.nn.Linear

小白从开始这段代码展示了`nn.Linear`的使用及其背后的原理。此外，小白还深入研究了PyTorch的核心类`torch.nn.Module`以及其子类`torch.nn.Linear`的源码。`grad_fn`作为张量的一个属性，用于指导反向传播进一步地，小白探讨了`requires_grad`与叶子节点（leaf tensor）的关系。叶子节点是指在计算图中没有前驱操作的张量，只有设置了`requires_grad=True`的叶子节点才会在反向传播时保存梯度。最后，小白学习了PyTorch中的三种梯度模式通过以上学习小白对PyTorch的自动求导机制有了更深刻的理解。

# 机器学习/深度学习 # 并行计算 # PyTorch # 算法框架/工具 # 容器

蓝易云

|

7月前

|

博文

Linux内核中的线程和进程实现详解

了解进程和线程如何工作，可以帮助我们更好地编写程序，充分利用多核CPU，实现并行计算，提高系统的响应速度和计算效能。记住，适当平衡进程和线程的使用，既要拥有独立空间的'兄弟'，也需要在'家庭'中分享和并行的成员。对于这个世界，现在，你应该有一个全新的认识。

# 并行计算 # Linux

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

FlashTokenizer: 基于C++的高性能分词引擎，速度可以提升8-15倍

FlashTokenizer是一款高性能CPU分词引擎，专为BERT等Transformer架构优化。基于高效C++实现与多线程并行处理，性能较传统分词器提升8-15倍，显著加速文本预处理。支持跨平台安装，适用于大规模文本处理、实时NLP应用及资源受限场景，助力开发者提升模型推理效率、降低硬件成本。

# 自然语言处理 # 并行计算 # C++ # 开发者 # Python

你的小帮手

|

7月前

|

博文

阿里云服务器包年包月、按量付费和抢占式实例有什么区别？如何选择？

阿里云服务器ECS提供三种付费类型：包年包月、按量付费和抢占式实例。包年包月适合长时间稳定使用，价格优惠且支持备案；按量付费为先用后付，按小时结算，适用于短期或突发需求，但费用较高；抢占式实例价格最低（可省90%），但可能因资源供需被释放，适合无状态应用如大数据分析、图像渲染等。选择时需根据业务场景权衡成本与稳定性，例如网站服务选包年包月，短期测试选按量付费，弹性伸缩业务可用抢占式实例。

# 云服务器 ECS # 数据采集 # 弹性计算 # 供应链 # 并行计算 # 数据库

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

并行计算