备案控制台

ZOMI酱_个人页

ZOMI酱

文章

160

问答

0

视频

0

个人介绍

AI系统专家/移动视觉/强化学习

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

2024年12月

12.19 16:15:43

发表了文章 2024-12-19 16:15:43

【AI系统】AI 框架之争

本文介绍了AI框架在数学上对自动微分的表达和处理，以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程，从萌芽阶段到深化阶段，探讨了不同阶段的关键技术和代表性框架。同时，文章展望了AI框架的未来趋势，包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。
12.09 11:36:17

发表了文章 2024-12-09 11:36:17

【AI系统】昇思MindSpore并行

本文介绍昇思MindSpore的并行训练技术，包括张量重排布、自动微分等，旨在简化并行策略搜索，提高大规模模型训练效率。文章探讨了大模型带来的挑战及现有框架的局限性，详细说明了MindSpore如何通过技术创新解决这些问题，实现高效的大模型训练。
12.09 11:35:19

发表了文章 2024-12-09 11:35:19

【AI系统】混合并行

混合并行融合了数据并行、模型并行和流水线并行，旨在高效利用计算资源，尤其适合大规模深度学习模型训练。通过将模型和数据合理分配至多个设备，混合并行不仅提升了计算效率，还优化了内存使用，使得在有限的硬件条件下也能处理超大型模型。3D混合并行（DP+PP+TP）是最先进的形式，需至少8个GPU实现。此策略通过拓扑感知3D映射最大化计算效率，减少通信开销，是当前深度学习训练框架如Deepspeed和Colossal AI的核心技术之一。
12.09 11:34:21

发表了文章 2024-12-09 11:34:21

【AI系统】流水并行

在大模型训练中，单个设备难以满足计算和存储需求，分布式训练成为必要。模型并行是其中关键技术之一，通过将模型计算任务拆分至不同设备上执行，提高训练效率。模型并行主要包括朴素模型并行、张量并行和流水线并行。流水线并行通过将模型的不同层分配到不同设备上，采用微批次处理，提高设备利用率。Gpipe和PipeDream是两种流行的流水线并行方案，前者通过重叠前向和反向传播提升效率，后者则通过1F1B策略实现交错执行，最大化利用计算资源。
12.09 11:30:42

发表了文章 2024-12-09 11:30:42

【AI系统】张量并行

在大模型训练中，单个设备难以满足需求，模型并行技术应运而生。其中，张量并行（Tensor Parallelism, TP）将模型内部的参数和计算任务拆分到不同设备上，特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用，以及通过PyTorch DeviceMesh实现TP的具体步骤。
12.09 11:30:05

发表了文章 2024-12-09 11:30:05

【AI系统】完全分片数据并行 FSDP

本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现，特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念，重点讨论了同步与异步数据并行的差异。接着，文章详细介绍了如何在PyTorch中实现弹性数据并行，特别是完全分片数据并行（FSDP）的机制，包括其如何通过分片模型状态和剩余状态来减少内存消耗，提高训练效率。此外，文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术，为理解和实施高效的分布式训练提供了全面的指导。
12.09 11:00:56

发表了文章 2024-12-09 11:00:56

【AI系统】数据并行

数据并行是一种在分布式AI系统中广泛应用的技术，通过将数据集划分成多个子集并在不同计算节点上并行处理，以提高计算效率和速度。在大规模机器学习和深度学习训练中，数据并行可以显著加快模型训练速度，减少训练时间，提升模型性能。每个计算节点接收完整的模型副本，但处理不同的数据子集，从而分摊计算任务，提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行，按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中，分布式数据并行（DDP）是当前应用最广泛的并行算法之一，通过高效的梯度聚合和参数同步机制，确保模型一致性，适用于大型NPU集群和AI系统。
12.09 10:59:23

发表了文章 2024-12-09 10:59:23

【AI系统】并行训练基本介绍

分布式训练通过将任务分配至多个节点，显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术，涵盖数据并行、模型并行及混合并行等策略，以及DDP、RPC等核心组件的应用，旨在帮助开发者针对不同场景选择最合适的训练方式，实现高效的大模型训练。
12.09 10:57:57

发表了文章 2024-12-09 10:57:57

【AI系统】计算图挑战与未来

当前主流AI框架采用计算图抽象神经网络计算，以张量和算子为核心元素，有效表达模型计算逻辑。计算图不仅简化数据流动，支持内存优化和算子调度，还促进了自动微分功能的实现，区分静态图和动态图两种形式。未来，计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进，适应更复杂的计算需求。
12.09 10:57:06

发表了文章 2024-12-09 10:57:06

【AI系统】动态图与静态图转换

从 TensorFlow、PyTorch 到 PaddlePaddle、MindSpore、MegEngine，主流 AI 框架经历了动静分离、动静结合到动静统一的发展过程。这些框架通过动态图转静态图技术，实现了计算效率与灵活性的平衡，显著提升了 AI 开发效率和产品应用的便利性。
12.09 10:55:54

发表了文章 2024-12-09 10:55:54

【AI系统】计算图的控制流实现

计算图作为有向无环图（DAG），能够抽象神经网络模型，但在编程中遇到控制流语句（如if、else、while、for）时，如何表示成为难题。引入控制流后，开发者可构建更复杂的模型结构，但部署含控制流的模型至不支持Python的设备上较为困难。目前，PyTorch仅支持Python控制流，而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣，动态图易于调试，静态图利于优化。
12.09 10:54:29

发表了文章 2024-12-09 10:54:29

【AI系统】计算图的调度与执行

深度学习训练过程涉及前向计算、计算损失及更新权重参数。AI框架通过计算图统一表示训练过程，算子作为计算图的节点，由后端硬件高效执行。计算图调度包括算子间的调度、并发调度和异构调度，确保计算资源的有效利用。图执行模式分为单算子执行、整图下沉执行和图切分多设备执行，适应不同场景需求。以PyTorch为例，其算子执行通过两次调度选择合适的Kernel进行张量操作，并支持自动求导。
12.09 10:51:52

发表了文章 2024-12-09 10:51:52

【AI系统】计算图与自动微分

自动求导利用链式法则计算雅可比矩阵，从结果节点逆向追溯计算路径，适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中，自动微分与反向传播紧密相连，通过构建计算图实现高效梯度计算，支持动态和静态计算图两种模式。动态图如PyTorch，适合灵活调试；静态图如TensorFlow，利于性能优化。
12.09 10:39:34

发表了文章 2024-12-09 10:39:34

【AI系统】计算图原理

本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势，探讨了计算图的基本构成，包括标量、向量、矩阵、张量等数据结构及其操作，并详细解释了计算图如何帮助解决AI工程化中的挑战。此外，文章还通过PyTorch实例展示了动态计算图的特点和实现方法，包括节点（张量或函数）和边（依赖关系）的定义，以及如何通过自定义Function实现正向和反向传播逻辑。
12.09 10:37:38

发表了文章 2024-12-09 10:37:38

【AI系统】计算图基本介绍

近年来，AI框架如TensorFlow和PyTorch通过计算图描述神经网络，推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达，还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加，如MOE、GAN、Attention Transformer等，AI框架需具备快速分析模型结构的能力，以优化训练效率。计算图与自动微分紧密结合，实现了从前向计算到反向传播的全流程自动化。
12.09 10:36:53

发表了文章 2024-12-09 10:36:53

【AI系统】自动微分的挑战&未来

本文详细探讨了自动微分的原理与实现，包括其在AI框架中的应用实例，指出自动微分技术面临的两大挑战——易用性和高效性能。文章分析了数学表达与程序表达间的差异对自动微分实现的影响，讨论了控制流表达、复杂数据类型、语言特性的处理难题，以及物理系统模拟对自动微分的需求。此外，还探讨了提高自动微分性能的方法，如合理选择中间结果存储点以平衡内存占用与运行速度。最后展望了自动微分的未来发展，特别是可微编程的概念及其在AI领域的应用前景。
12.09 10:21:28

发表了文章 2024-12-09 10:21:28

【AI系统】动手实现 PyTorch 微分

本文介绍了使用操作符重载（OO）编程方式实现的自动微分，特别是采用反向模式（Reverse Mode）的实现方法。文中详细解释了操作符重载的基本概念及其在自动微分中的应用，以及反向模式的工作原理。通过 Python 示例代码，演示了如何手动实现类似 PyTorch 中自动微分的核心机制，包括定义 `Variable` 类、`Tape` 结构以及实现基本的数学运算符重载。最后，通过一个具体的数学函数示例展示了如何利用上述机制计算梯度，帮助读者理解反向模式自动微分的全过程。
12.09 10:19:30

发表了文章 2024-12-09 10:19:30

【AI系统】动手实现自动微分

本章介绍如何实现自动微分，重点讲解前向自动微分的原理及Python实现方法。通过操作符重载，将程序分解为基础表达式组合，利用链式法则计算导数。示例代码展示了如何使用自定义类`ADTangent`实现加、减、乘、log、sin等操作的自动微分，验证了与PyTorch和MindSpore等框架的一致性。
12.09 10:18:23

发表了文章 2024-12-09 10:18:23

【AI系统】微分实现方式

本文详细介绍了自动微分的三种实现方法：基本表达式、操作符重载和源代码转换。每种方法都有其特点和适用场景，包括它们的实现原理、优缺点。自动微分是机器学习和深度学习中的关键技术，理解这些实现方式有助于更好地掌握其背后的数学原理和工程实践。文中还提到了具体的应用案例和工具，如PyTorch和MindSpore，展示了这些方法在实际项目中的应用。
12.08 17:21:05

发表了文章 2024-12-08 17:21:05

【AI系统】微分计算模式

本文深入探讨了自动微分技术，这是AI框架中的核心功能。自动微分分为前向微分和后向微分两种模式，主要通过雅克比矩阵实现。前向模式适用于输出维度大于输入的情况，而后向模式则更适合多参数场景，广泛应用于现代AI框架中。文章还详细解释了这两种模式的工作原理、优缺点及应用场景。
12.08 13:46:37

发表了文章 2024-12-08 13:46:37

【AI系统】什么是微分

自动微分是一种高效准确的计算机程序求导技术，广泛应用于计算流体力学、大气科学、工业设计仿真优化等领域。随着机器学习的发展，自动微分技术与编程语言、计算框架紧密结合，成为AI框架的核心功能之一。本文介绍了自动微分的基本概念及其与手动微分、数值微分和符号微分的区别和优势。
12.08 13:43:06

发表了文章 2024-12-08 13:43:06

【AI系统】自动微分引言

本文聚焦AI框架中的自动微分功能，探讨其重要性及其实现方式。自动微分是AI框架的核心，支持正向和反向传播，确保模型的有效训练。文中介绍了微分的基本概念、自动微分的两种主要模式（前向和后向微分），以及其实现方法，包括表达式图、操作符重载和源码转换。此外，文章还展望了自动微分技术的未来发展与挑战，鼓励读者深入学习AI框架及其背后的原理。
12.08 13:37:34

发表了文章 2024-12-08 13:37:34

【AI系统】昇思 MindSpore 关键特性

本文介绍华为自研AI框架昇思MindSpore，一个面向全场景的AI计算框架，旨在提供统一、高效、安全的平台，支持AI算法研究与生产部署。文章详细阐述了MindSpore的定位、架构、特性及在端边云全场景下的应用优势，强调其动静态图统一、联邦学习支持及高性能优化等亮点。
12.08 13:35:53

发表了文章 2024-12-08 13:35:53

【AI系统】框架编程范式

编程范式是软件工程中一类典型的编程风格，如函数式、命令式、声明式、面向对象等。它们影响着开发者对程序执行的理解。本文探讨了两种主要的编程范式——声明式编程与命令式编程，特别是在AI框架中的应用，如TensorFlow的声明式编程和PyTorch的命令式编程，分析了这两种范式对AI框架架构设计的影响及主流AI框架在这两种范式上的差异。
12.08 13:34:11

发表了文章 2024-12-08 13:34:11

【AI系统】AI 框架作用

深度学习通过多层计算模型学习数据中的复杂结构，实现高级别的数据抽象。例如，CNN能从大量图像中学习猫和狗的特征。本文探讨深度学习原理及其计算中AI框架的应用，强调AI框架如何帮助自动求导，简化模型训练过程，以及在实际应用中的作用。
12.08 13:33:23

发表了文章 2024-12-08 13:33:23

【AI系统】AI 框架基础介绍

本文介绍了AI算法、神经网络及AI框架的基础概念，探讨了神经网络的作用、训练目的以及AI框架如何简化模型设计、训练与验证过程。文章还概述了AI框架的发展历程和技术演进，强调了国内外主要AI框架的特点及其对AI技术发展的推动作用。
12.08 13:31:51

发表了文章 2024-12-08 13:31:51

【AI系统】推理内存布局

本文介绍了CPU和GPU的基础内存知识，NCHWX内存排布格式，以及MNN推理引擎如何通过数据内存重新排布进行内核优化，特别是针对WinoGrad卷积计算的优化方法，通过NC4HW4数据格式重排，有效利用了SIMD指令集特性，减少了cache miss，提高了计算效率。
12.08 13:29:19

发表了文章 2024-12-08 13:29:19

【AI系统】QNNPack 算法

QNNPACK是Marat Dukhan开发的量化神经网络计算加速库，专为移动端优化，性能卓越。本文介绍QNNPACK的实现，包括间接卷积算法、内存重排和间接缓冲区等关键技术，有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题，显著提升了量化神经网络的计算效率。
12.08 13:24:45

发表了文章 2024-12-08 13:24:45

【AI系统】Winograd 算法

本文详细介绍Winograd优化算法，该算法通过增加加法操作来减少乘法操作，从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化，然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用，最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异，但其应用范围受限。
12.08 13:09:36

发表了文章 2024-12-08 13:09:36

【AI系统】Im2Col 算法

Caffe 作为早期的 AI 框架，采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法，通过将输入数据重排为连续内存中的矩阵，减少内存访问次数，提高计算效率。该方法首先将输入图像转换为矩阵，然后利用 GEMM 库加速计算，最后将结果转换回原格式。这种方式显著提升了卷积计算的速度，尤其适用于通道数较多的卷积层。
12.08 03:01:55

发表了文章 2024-12-08 03:01:55

【AI系统】卷积操作原理

本文详细介绍了卷积的数学原理及其在卷积神经网络（CNN）中的应用。卷积作为一种特殊的线性运算，是CNN处理图像任务的核心。文章从卷积的数学定义出发，通过信号处理的例子解释了卷积的过程，随后介绍了CNN中卷积计算的细节，包括卷积核、步长、填充等概念。文中还探讨了卷积的物理意义、性质及优化手段，如张量运算和内存布局优化。最后，提供了基于PyTorch的卷积实现示例，帮助读者理解和实现卷积计算。
12.08 02:31:53

发表了文章 2024-12-08 02:31:53

【AI系统】Kernel 层架构

推理引擎的Kernel层负责执行底层数学运算，如矩阵乘法、卷积等，直接影响推理速度与效率。它与Runtime层紧密配合，通过算法优化、内存布局调整、汇编优化及调度优化等手段，实现高性能计算。Kernel层针对不同硬件（如CPU、GPU）进行特定优化，支持NEON、AVX、CUDA等技术，确保在多种平台上高效运行。
12.08 02:30:45

发表了文章 2024-12-08 02:30:45

【AI系统】计算图的优化策略

本文深入探讨了计算图的优化策略，包括算子替换、数据类型转换、存储优化等，旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法，通过分块计算和重算策略优化Transformer模型的注意力机制，显著减少了内存访问次数，提升了计算效率。此外，文章还讨论了内存优化技术，如Inplace operation和Memory sharing，进一步减少内存消耗，提高计算性能。
12.08 02:15:49

发表了文章 2024-12-08 02:15:49

【AI系统】离线图优化技术

本文回顾了计算图优化的各个方面，包括基础优化、扩展优化和布局与内存优化，旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问，提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异，为深度学习模型的优化提供了全面的指导。
12.08 02:09:41

发表了文章 2024-12-08 02:09:41

【AI系统】计算图优化架构

本文介绍了推理引擎转换中的图优化模块，涵盖算子融合、布局转换、算子替换及内存优化等技术，旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用，显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案，包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外，文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现，展示了如何通过图优化提高模型推理性能的具体示例。
12.08 02:05:38

发表了文章 2024-12-08 02:05:38

【AI系统】模型转换流程

本文详细介绍了AI模型在不同框架间的转换方法，包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件，而规范式转换则通过一个中间标准格式（如ONNX）作为桥梁，实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节，以及模型转换工具的概览，帮助用户解决训练环境与部署环境不匹配的问题。
12.08 02:03:49

发表了文章 2024-12-08 02:03:49

【AI系统】自定义计算图 IR

本文介绍了模型转换的方法及流程，重点讲解了计算图的自定义方法和优化技术。通过IR（Intermediate Representation）将不同AI框架的模型转换为统一格式，实现跨平台高效部署。计算图由张量和算子构成，支持多种数据类型和内存排布格式，通过算子融合等优化技术提高模型性能。文章还详细说明了如何使用FlatBuffers定义计算图结构，包括张量、算子和网络模型的定义，为自定义神经网络提供了实践指南。
12.08 02:01:55

发表了文章 2024-12-08 02:01:55

【AI系统】推理文件格式

本文介绍了神经网络模型的序列化与反序列化技术，涵盖跨平台通用序列化方法（如 Protobuf 和 FlatBuffers）、模型自定义序列化方法、语言级通用序列化方法等，重点讨论了这两种流行文件格式的特点、使用场景及其在模型部署中的作用。
12.08 01:57:48

发表了文章 2024-12-08 01:57:48

【AI系统】模型转换基本介绍

模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题，通过格式转换和图优化，将训练框架生成的模型适配到推理框架中，实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节，确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件，通过优化阶段和运行阶段，实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构，推理引擎需具备高度的灵活性和兼容性，以支持多样化的应用场景。
12.08 01:54:27

发表了文章 2024-12-08 01:54:27

【AI系统】知识蒸馏原理

本文深入解析知识蒸馏(Knowledge Distillation, KD)，一种将大型教师模型的知识高效转移至小型学生模型的技术，旨在减少模型复杂度和计算开销，同时保持高性能。文章涵盖知识蒸馏的基本原理、不同类型的知识（如响应、特征、关系知识）、蒸馏方式（离线、在线、自蒸馏）及Hinton的经典算法，为读者提供全面的理解。
12.08 01:49:44

发表了文章 2024-12-08 01:49:44

【AI系统】模型剪枝

本文概述了模型剪枝的概念、方法及流程，旨在通过移除神经网络中冗余或不重要的参数，实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求，还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程，以及多种剪枝算法，如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法，可以在保持模型性能的同时，显著提高模型的计算速度和部署灵活性。
12.08 01:44:59

发表了文章 2024-12-08 01:44:59

【AI系统】训练后量化与部署

本文详细介绍了训练后量化技术，涵盖动态和静态量化方法，旨在将模型权重和激活从浮点数转换为整数，以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制，文章探讨了如何平衡模型精度与性能，同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
12.08 01:40:54

发表了文章 2024-12-08 01:40:54

【AI系统】感知量化训练 QAT

本文介绍感知量化训练（QAT）流程，旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点（FakeQuant）模拟量化误差，并在训练中最小化这些误差，使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理，以及QAT与PTQ的对比，提供了实践技巧，如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
12.08 01:30:57

发表了文章 2024-12-08 01:30:57

【AI系统】低比特量化原理

模型量化是将浮点数模型参数转化为低比特整数表示的技术，旨在减少模型大小、内存消耗及推理延迟，但会带来精度损失。本文介绍量化的基本原理、优势及挑战，涵盖量化训练、动态与静态离线量化等方法，并探讨线性与非线性量化、饱和与非饱和量化等技术细节。
12.08 01:21:29

发表了文章 2024-12-08 01:21:29

【AI系统】模型压缩基本介绍

模型压缩旨在通过减少存储空间、降低计算量和提高计算效率，降低模型部署成本，同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解，广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
12.07 23:31:11

发表了文章 2024-12-07 23:31:11

【AI系统】EfficientFormer 系列

本文介绍了一种名为 EfficientFormer 的轻量化 Transformer 模型，旨在优化移动设备上的推理速度。通过重新设计 ViT 及其变体，特别是针对移动设备的延迟优化，EfficientFormer 引入了维度一致的 Transformer Block，并通过网络模型搜索获得了多个系列的模型。EfficientFormer V2 进一步改进了模型设计，引入细粒度联合搜索策略，优化了延迟和参数量，实现了更高的性能和效率。
12.07 23:11:56

发表了文章 2024-12-07 23:11:56

【AI系统】MobileFormer

本文介绍了MobileFormer，一种创新的网络结构，通过双线桥将MobileNet的局部特征与Transformer的全局特征相结合，实现了高效且低计算成本的模型设计。MobileFormer使用少量tokens来学习全局先验，从而在保持高性能的同时，显著降低了计算量。通过本文，读者可以深入了解如何有效结合CNN和Transformer的优势，实现模型的轻量化。
12.07 23:06:12

发表了文章 2024-12-07 23:06:12

【AI系统】MobileVit 系列

MobileViT系列是基于Vision Transformer（ViT）架构设计的轻量级视觉模型，专为移动设备和嵌入式系统优化。MobileViT V1通过结合局部卷积和全局Transformer机制，实现了高性能与低资源消耗的平衡。V2进一步优化了Transformer中的多头自注意力机制，引入了线性复杂度的可分离自注意力，显著提升了计算效率。V3则对融合模块进行了简化，用1x1卷积替代3x3卷积，减少了参数量，同时引入了残差连接，进一步提升了模型性能。这些改进使MobileViT系列在保持高效的同时，能够在资源受限的设备上运行，表现出色。

1

2

3

4

发表了文章 2024-12-19

【AI系统】AI 框架之争
发表了文章 2024-12-09

【AI系统】昇思MindSpore并行
发表了文章 2024-12-09

【AI系统】混合并行
发表了文章 2024-12-09

【AI系统】完全分片数据并行 FSDP
发表了文章 2024-12-09

【AI系统】张量并行
发表了文章 2024-12-09

【AI系统】流水并行
发表了文章 2024-12-09

【AI系统】计算图的控制流实现
发表了文章 2024-12-09

【AI系统】动态图与静态图转换
发表了文章 2024-12-09

【AI系统】计算图挑战与未来
发表了文章 2024-12-09

【AI系统】数据并行
发表了文章 2024-12-09

【AI系统】并行训练基本介绍
发表了文章 2024-12-09

【AI系统】计算图与自动微分
发表了文章 2024-12-09

【AI系统】计算图的调度与执行
发表了文章 2024-12-09

【AI系统】计算图原理
发表了文章 2024-12-09

【AI系统】计算图基本介绍
发表了文章 2024-12-09

【AI系统】自动微分的挑战&未来
发表了文章 2024-12-09

【AI系统】动手实现 PyTorch 微分
发表了文章 2024-12-09

【AI系统】微分实现方式
发表了文章 2024-12-09

【AI系统】动手实现自动微分
发表了文章 2024-12-08

【AI系统】微分计算模式

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息