PyTorch的搜索结果_文章_第8页-阿里云开发者社区

RaceSnail

|

4月前

|

博文

本文详细介绍PaddlePaddle与NPU的适配工作，涵盖训练与推理支持、性能优化及离线推理方案。PaddleCustomDevice作为适配层，支持主流模型（详见飞桨-昇腾模型列表），多数性能媲美V100，部分调优模型接近0.8*A800。硬件适配主要针对A2芯片，A1兼容但310系列建议离线推理。提供常用模型仓链接及整体方案导览，包括环境准备、算子适配、性能调优和Paddle转ONNX/OM等内容。

# 机器学习/深度学习 # PyTorch # 算法框架/工具 # 芯片 # AI芯片

aliyun4381607004

|

4月前

|

博文

|

来自：大数据与机器学习

阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析

DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案

# 人工智能平台 PAI # PyTorch # 调度 # 算法框架/工具 # C++ # Python

阿里云基础设施.

|

4月前

|

博文

ACK AI Profiling：从黑箱到透明的问题剖析

本文从一个通用的客户问题出发，描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查，最后到问题定位与解决、业务执行过程的分析，从而展现一个从黑箱到透明的精细化的剖析过程。

# 容器服务Kubernetes版 # 人工智能 # PyTorch # 算法框架/工具 # 异构计算 # Python

Deephub

|

4月前

|

博文

|

来自：大数据与机器学习

Perforated Backpropagation：神经网络优化的创新技术及PyTorch使用指南

深度学习近年来在多个领域取得了显著进展，但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播（Perforated Backpropagation）技术通过引入“树突”机制，模仿生物神经元的计算能力，实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点，使其能够识别神经元分类中的异常模式，从而提升整体网络性能。实验表明，该方法不仅可提高模型精度（如BERT模型准确率提升3%-17%），还能实现高效模型压缩（参数减少44%而无性能损失）。这一革新为深度学习的基础构建模块带来了新的可能性，尤其适用于边缘设备和大规模模型优化场景。

# 机器学习/深度学习 # 算法 # PyTorch # 调度 # 算法框架/工具

Deephub

|

5月前

|

博文

|

来自：大数据与机器学习

加速LLM大模型推理，KV缓存技术详解与PyTorch实现

大型语言模型（LLM）的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术，通过存储复用注意力机制中的Key和Value张量，减少冗余计算，显著提升推理效率。文章从理论到实践，详细解析KV缓存原理、实现与性能优势，并提供PyTorch代码示例。实验表明，该技术在长序列生成中可将推理时间降低近60%，为大模型优化提供了有效方案。

# 机器学习/深度学习 # 存储 # 缓存 # PyTorch # 算法框架/工具

Deephub

|

5月前

|

博文

|

来自：大数据与机器学习

10招立竿见影的PyTorch性能优化技巧，让模型训练速度翻倍

本文系统总结了PyTorch性能调优的关键技术，涵盖混合精度训练、PyTorch 2.0编译功能、推理模式优化、Channels-Last内存格式、图优化与变换、cuDNN基准测试、内存使用优化等多个方面。通过实证测试，文章详细分析了各技术的实现细节、优势及适用场景，如混合精度训练可显著提升计算效率和内存利用率，torch.compile()能自动优化代码生成以加速模型运行。此外，还探讨了推理模式的选择、卷积操作优化及模型构建的最佳实践。这些方法结合良好的编码习惯，有助于开发者构建高效、可扩展的深度学习应用。

# 机器学习/深度学习 # 算法 # PyTorch # 算法框架/工具 # 异构计算

Deephub

|

5月前

|

博文

|

来自：大数据与机器学习

从零开始用Pytorch实现LLaMA 4的混合专家（MoE）模型

近期发布的LLaMA 4模型引入混合专家（MoE）架构，以提升效率与性能。尽管社区对其实际表现存在讨论，但MoE作为重要设计范式再次受到关注。本文通过Pytorch从零实现简化版LLaMA 4 MoE模型，涵盖数据准备、分词、模型构建（含词元嵌入、RoPE、RMSNorm、多头注意力及MoE层）到训练与文本生成全流程。关键点包括MoE层实现（路由器、专家与共享专家）、RoPE处理位置信息及RMSNorm归一化。虽规模小于实际LLaMA 4，但清晰展示MoE核心机制：动态路由与稀疏激活专家，在控制计算成本的同时提升性能。完整代码见链接，基于FareedKhan-dev的Github代码修改而成。

# 存储 # 自然语言处理 # PyTorch # 算法框架/工具 # 网络架构

游客gt7qofxar6rlw

|

5月前

|

博文

MindIE Torch快速上手

MindIE Torch 是一款高效的深度学习推理优化工具，支持 PyTorch 模型在 NPU 上的高性能部署。其核心特性包括：1) 子图与单算子混合执行，配合 torch_npu 实现高效推理；2) 支持 C++ 和 Python 编程语言，灵活适配不同开发需求；3) 兼容多种模式（TorchScript、ExportedProgram、torch.compile），覆盖广泛场景；4) 支持静态与动态 Shape 模型编译，满足多样化输入需求。通过简单易用的 API，开发者可快速完成模型加载、编译优化、推理执行及离线模型导出等全流程操作，显著提升开发效率与性能表现。

# 机器学习/深度学习 # PyTorch # API # C++ # Python

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # PyTorch # 算法框架/工具 # C++

Deephub

|

5月前

|

博文

|

来自：大数据与机器学习

Triton入门教程：安装与编写和运行简单Triton内核

Triton是一款开源GPU编程语言与编译器，专为AI和深度学习领域设计，提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核，性能接近专家级CUDA代码，但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略，以及与CUDA和PyTorch的技术对比。此外，还探讨了其在实际项目中的应用场景，如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程，降低了开发门槛，同时保持高性能表现，成为连接高级框架与底层硬件的重要工具。

# 并行计算 # PyTorch # 算法框架/工具 # 开发者 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

PyTorch