ZOMI酱_高分内容_个人页-阿里云开发者社区

发表了文章 2024-12-19

【AI系统】AI 框架之争

本文介绍了AI框架在数学上对自动微分的表达和处理，以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程，从萌芽阶段到深化阶段，探讨了不同阶段的关键技术和代表性框架。同时，文章展望了AI框架的未来趋势，包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。

发表了文章 2024-12-09

【AI系统】昇思MindSpore并行

本文介绍昇思MindSpore的并行训练技术，包括张量重排布、自动微分等，旨在简化并行策略搜索，提高大规模模型训练效率。文章探讨了大模型带来的挑战及现有框架的局限性，详细说明了MindSpore如何通过技术创新解决这些问题，实现高效的大模型训练。

发表了文章 2024-12-09

【AI系统】混合并行

混合并行融合了数据并行、模型并行和流水线并行，旨在高效利用计算资源，尤其适合大规模深度学习模型训练。通过将模型和数据合理分配至多个设备，混合并行不仅提升了计算效率，还优化了内存使用，使得在有限的硬件条件下也能处理超大型模型。3D混合并行（DP+PP+TP）是最先进的形式，需至少8个GPU实现。此策略通过拓扑感知3D映射最大化计算效率，减少通信开销，是当前深度学习训练框架如Deepspeed和Colossal AI的核心技术之一。

发表了文章 2024-12-09

【AI系统】完全分片数据并行 FSDP

本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现，特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念，重点讨论了同步与异步数据并行的差异。接着，文章详细介绍了如何在PyTorch中实现弹性数据并行，特别是完全分片数据并行（FSDP）的机制，包括其如何通过分片模型状态和剩余状态来减少内存消耗，提高训练效率。此外，文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术，为理解和实施高效的分布式训练提供了全面的指导。

发表了文章 2024-12-09

【AI系统】张量并行

在大模型训练中，单个设备难以满足需求，模型并行技术应运而生。其中，张量并行（Tensor Parallelism, TP）将模型内部的参数和计算任务拆分到不同设备上，特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用，以及通过PyTorch DeviceMesh实现TP的具体步骤。

发表了文章 2024-12-09

【AI系统】流水并行

在大模型训练中，单个设备难以满足计算和存储需求，分布式训练成为必要。模型并行是其中关键技术之一，通过将模型计算任务拆分至不同设备上执行，提高训练效率。模型并行主要包括朴素模型并行、张量并行和流水线并行。流水线并行通过将模型的不同层分配到不同设备上，采用微批次处理，提高设备利用率。Gpipe和PipeDream是两种流行的流水线并行方案，前者通过重叠前向和反向传播提升效率，后者则通过1F1B策略实现交错执行，最大化利用计算资源。

发表了文章 2024-12-09

【AI系统】计算图的控制流实现

计算图作为有向无环图（DAG），能够抽象神经网络模型，但在编程中遇到控制流语句（如if、else、while、for）时，如何表示成为难题。引入控制流后，开发者可构建更复杂的模型结构，但部署含控制流的模型至不支持Python的设备上较为困难。目前，PyTorch仅支持Python控制流，而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣，动态图易于调试，静态图利于优化。

发表了文章 2024-12-09

【AI系统】动态图与静态图转换

从 TensorFlow、PyTorch 到 PaddlePaddle、MindSpore、MegEngine，主流 AI 框架经历了动静分离、动静结合到动静统一的发展过程。这些框架通过动态图转静态图技术，实现了计算效率与灵活性的平衡，显著提升了 AI 开发效率和产品应用的便利性。

发表了文章 2024-12-09

【AI系统】计算图挑战与未来

当前主流AI框架采用计算图抽象神经网络计算，以张量和算子为核心元素，有效表达模型计算逻辑。计算图不仅简化数据流动，支持内存优化和算子调度，还促进了自动微分功能的实现，区分静态图和动态图两种形式。未来，计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进，适应更复杂的计算需求。

发表了文章 2024-12-09

【AI系统】数据并行

数据并行是一种在分布式AI系统中广泛应用的技术，通过将数据集划分成多个子集并在不同计算节点上并行处理，以提高计算效率和速度。在大规模机器学习和深度学习训练中，数据并行可以显著加快模型训练速度，减少训练时间，提升模型性能。每个计算节点接收完整的模型副本，但处理不同的数据子集，从而分摊计算任务，提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行，按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中，分布式数据并行（DDP）是当前应用最广泛的并行算法之一，通过高效的梯度聚合和参数同步机制，确保模型一致性，适用于大型NPU集群和AI系统。

发表了文章 2024-12-09

【AI系统】并行训练基本介绍

分布式训练通过将任务分配至多个节点，显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术，涵盖数据并行、模型并行及混合并行等策略，以及DDP、RPC等核心组件的应用，旨在帮助开发者针对不同场景选择最合适的训练方式，实现高效的大模型训练。

发表了文章 2024-12-09

【AI系统】计算图与自动微分

自动求导利用链式法则计算雅可比矩阵，从结果节点逆向追溯计算路径，适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中，自动微分与反向传播紧密相连，通过构建计算图实现高效梯度计算，支持动态和静态计算图两种模式。动态图如PyTorch，适合灵活调试；静态图如TensorFlow，利于性能优化。

发表了文章 2024-12-09

【AI系统】计算图的调度与执行

深度学习训练过程涉及前向计算、计算损失及更新权重参数。AI框架通过计算图统一表示训练过程，算子作为计算图的节点，由后端硬件高效执行。计算图调度包括算子间的调度、并发调度和异构调度，确保计算资源的有效利用。图执行模式分为单算子执行、整图下沉执行和图切分多设备执行，适应不同场景需求。以PyTorch为例，其算子执行通过两次调度选择合适的Kernel进行张量操作，并支持自动求导。

发表了文章 2024-12-09

【AI系统】计算图原理

本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势，探讨了计算图的基本构成，包括标量、向量、矩阵、张量等数据结构及其操作，并详细解释了计算图如何帮助解决AI工程化中的挑战。此外，文章还通过PyTorch实例展示了动态计算图的特点和实现方法，包括节点（张量或函数）和边（依赖关系）的定义，以及如何通过自定义Function实现正向和反向传播逻辑。

发表了文章 2024-12-09

【AI系统】计算图基本介绍

近年来，AI框架如TensorFlow和PyTorch通过计算图描述神经网络，推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达，还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加，如MOE、GAN、Attention Transformer等，AI框架需具备快速分析模型结构的能力，以优化训练效率。计算图与自动微分紧密结合，实现了从前向计算到反向传播的全流程自动化。

发表了文章 2024-12-09

【AI系统】自动微分的挑战&未来

本文详细探讨了自动微分的原理与实现，包括其在AI框架中的应用实例，指出自动微分技术面临的两大挑战——易用性和高效性能。文章分析了数学表达与程序表达间的差异对自动微分实现的影响，讨论了控制流表达、复杂数据类型、语言特性的处理难题，以及物理系统模拟对自动微分的需求。此外，还探讨了提高自动微分性能的方法，如合理选择中间结果存储点以平衡内存占用与运行速度。最后展望了自动微分的未来发展，特别是可微编程的概念及其在AI领域的应用前景。

发表了文章 2024-12-09

【AI系统】动手实现 PyTorch 微分

本文介绍了使用操作符重载（OO）编程方式实现的自动微分，特别是采用反向模式（Reverse Mode）的实现方法。文中详细解释了操作符重载的基本概念及其在自动微分中的应用，以及反向模式的工作原理。通过 Python 示例代码，演示了如何手动实现类似 PyTorch 中自动微分的核心机制，包括定义 `Variable` 类、`Tape` 结构以及实现基本的数学运算符重载。最后，通过一个具体的数学函数示例展示了如何利用上述机制计算梯度，帮助读者理解反向模式自动微分的全过程。

发表了文章 2024-12-09

【AI系统】微分实现方式

本文详细介绍了自动微分的三种实现方法：基本表达式、操作符重载和源代码转换。每种方法都有其特点和适用场景，包括它们的实现原理、优缺点。自动微分是机器学习和深度学习中的关键技术，理解这些实现方式有助于更好地掌握其背后的数学原理和工程实践。文中还提到了具体的应用案例和工具，如PyTorch和MindSpore，展示了这些方法在实际项目中的应用。

发表了文章 2024-12-09

【AI系统】动手实现自动微分

本章介绍如何实现自动微分，重点讲解前向自动微分的原理及Python实现方法。通过操作符重载，将程序分解为基础表达式组合，利用链式法则计算导数。示例代码展示了如何使用自定义类`ADTangent`实现加、减、乘、log、sin等操作的自动微分，验证了与PyTorch和MindSpore等框架的一致性。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ZOMI酱_个人页

个人介绍

擅长的技术

【AI系统】AI 框架之争

【AI系统】昇思MindSpore并行

【AI系统】混合并行

【AI系统】完全分片数据并行 FSDP

【AI系统】张量并行

【AI系统】流水并行

【AI系统】计算图的控制流实现

【AI系统】动态图与静态图转换

【AI系统】计算图挑战与未来

【AI系统】数据并行

【AI系统】并行训练基本介绍

【AI系统】计算图与自动微分

【AI系统】计算图的调度与执行

【AI系统】计算图原理

【AI系统】计算图基本介绍

【AI系统】自动微分的挑战&未来

【AI系统】动手实现 PyTorch 微分

【AI系统】微分实现方式

【AI系统】动手实现自动微分

【AI系统】微分计算模式

【AI系统】什么是微分

【AI系统】自动微分引言

【AI系统】昇思 MindSpore 关键特性

【AI系统】框架编程范式

【AI系统】AI 框架作用

【AI系统】推理内存布局

【AI系统】AI 框架基础介绍

【AI系统】QNNPack 算法

【AI系统】Winograd 算法

【AI系统】Im2Col 算法

【AI系统】卷积操作原理

【AI系统】计算图优化架构

【AI系统】推理文件格式

【AI系统】模型转换流程

【AI系统】Kernel 层架构

【AI系统】自定义计算图 IR

【AI系统】计算图的优化策略

【AI系统】模型转换基本介绍

【AI系统】离线图优化技术

【AI系统】模型压缩基本介绍

【AI系统】模型剪枝

【AI系统】低比特量化原理

【AI系统】感知量化训练 QAT

【AI系统】知识蒸馏原理

【AI系统】训练后量化与部署

【AI系统】EfficientFormer 系列

【AI系统】MobileVit 系列

【AI系统】MobileFormer

【AI系统】GhostNet 系列

【AI系统】EfficientNet 系列

【AI系统】AI 框架之争

【AI系统】昇思MindSpore并行

【AI系统】混合并行

【AI系统】完全分片数据并行 FSDP

【AI系统】张量并行

【AI系统】流水并行

【AI系统】计算图的控制流实现

【AI系统】动态图与静态图转换

【AI系统】计算图挑战与未来

【AI系统】数据并行

【AI系统】并行训练基本介绍