ZOMI酱_个人页

个人头像照片 ZOMI酱
个人头像照片
159
0
0

个人介绍

AI系统专家/移动视觉/强化学习

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2024年12月

  • 12.19 16:15:43
    发表了文章 2024-12-19 16:15:43

    【AI系统】AI 框架之争

    本文介绍了AI框架在数学上对自动微分的表达和处理,以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程,从萌芽阶段到深化阶段,探讨了不同阶段的关键技术和代表性框架。同时,文章展望了AI框架的未来趋势,包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。
  • 12.09 11:36:17
    发表了文章 2024-12-09 11:36:17

    【AI系统】昇思MindSpore并行

    本文介绍昇思MindSpore的并行训练技术,包括张量重排布、自动微分等,旨在简化并行策略搜索,提高大规模模型训练效率。文章探讨了大模型带来的挑战及现有框架的局限性,详细说明了MindSpore如何通过技术创新解决这些问题,实现高效的大模型训练。
  • 12.09 11:35:19
    发表了文章 2024-12-09 11:35:19

    【AI系统】混合并行

    混合并行融合了数据并行、模型并行和流水线并行,旨在高效利用计算资源,尤其适合大规模深度学习模型训练。通过将模型和数据合理分配至多个设备,混合并行不仅提升了计算效率,还优化了内存使用,使得在有限的硬件条件下也能处理超大型模型。3D混合并行(DP+PP+TP)是最先进的形式,需至少8个GPU实现。此策略通过拓扑感知3D映射最大化计算效率,减少通信开销,是当前深度学习训练框架如Deepspeed和Colossal AI的核心技术之一。
  • 12.09 11:34:21
    发表了文章 2024-12-09 11:34:21

    【AI系统】流水并行

    在大模型训练中,单个设备难以满足计算和存储需求,分布式训练成为必要。模型并行是其中关键技术之一,通过将模型计算任务拆分至不同设备上执行,提高训练效率。模型并行主要包括朴素模型并行、张量并行和流水线并行。流水线并行通过将模型的不同层分配到不同设备上,采用微批次处理,提高设备利用率。Gpipe和PipeDream是两种流行的流水线并行方案,前者通过重叠前向和反向传播提升效率,后者则通过1F1B策略实现交错执行,最大化利用计算资源。
  • 12.09 11:30:42
    发表了文章 2024-12-09 11:30:42

    【AI系统】张量并行

    在大模型训练中,单个设备难以满足需求,模型并行技术应运而生。其中,张量并行(Tensor Parallelism, TP)将模型内部的参数和计算任务拆分到不同设备上,特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用,以及通过PyTorch DeviceMesh实现TP的具体步骤。
  • 12.09 11:30:05
    发表了文章 2024-12-09 11:30:05

    【AI系统】完全分片数据并行 FSDP

    本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
  • 12.09 11:00:56
    发表了文章 2024-12-09 11:00:56

    【AI系统】数据并行

    数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
  • 12.09 10:59:23
    发表了文章 2024-12-09 10:59:23

    【AI系统】并行训练基本介绍

    分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
  • 12.09 10:57:57
    发表了文章 2024-12-09 10:57:57

    【AI系统】计算图挑战与未来

    当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
  • 12.09 10:57:06
    发表了文章 2024-12-09 10:57:06

    【AI系统】动态图与静态图转换

    从 TensorFlow、PyTorch 到 PaddlePaddle、MindSpore、MegEngine,主流 AI 框架经历了动静分离、动静结合到动静统一的发展过程。这些框架通过动态图转静态图技术,实现了计算效率与灵活性的平衡,显著提升了 AI 开发效率和产品应用的便利性。
  • 12.09 10:55:54
    发表了文章 2024-12-09 10:55:54

    【AI系统】计算图的控制流实现

    计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
  • 12.09 10:54:29
    发表了文章 2024-12-09 10:54:29

    【AI系统】计算图的调度与执行

    深度学习训练过程涉及前向计算、计算损失及更新权重参数。AI框架通过计算图统一表示训练过程,算子作为计算图的节点,由后端硬件高效执行。计算图调度包括算子间的调度、并发调度和异构调度,确保计算资源的有效利用。图执行模式分为单算子执行、整图下沉执行和图切分多设备执行,适应不同场景需求。以PyTorch为例,其算子执行通过两次调度选择合适的Kernel进行张量操作,并支持自动求导。
  • 12.09 10:51:52
    发表了文章 2024-12-09 10:51:52

    【AI系统】计算图与自动微分

    自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
  • 12.09 10:39:34
    发表了文章 2024-12-09 10:39:34

    【AI系统】计算图原理

    本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
  • 12.09 10:37:38
    发表了文章 2024-12-09 10:37:38

    【AI系统】计算图基本介绍

    近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
  • 12.09 10:36:53
    发表了文章 2024-12-09 10:36:53

    【AI系统】自动微分的挑战&未来

    本文详细探讨了自动微分的原理与实现,包括其在AI框架中的应用实例,指出自动微分技术面临的两大挑战——易用性和高效性能。文章分析了数学表达与程序表达间的差异对自动微分实现的影响,讨论了控制流表达、复杂数据类型、语言特性的处理难题,以及物理系统模拟对自动微分的需求。此外,还探讨了提高自动微分性能的方法,如合理选择中间结果存储点以平衡内存占用与运行速度。最后展望了自动微分的未来发展,特别是可微编程的概念及其在AI领域的应用前景。
  • 12.09 10:21:28
    发表了文章 2024-12-09 10:21:28

    【AI系统】动手实现 PyTorch 微分

    本文介绍了使用操作符重载(OO)编程方式实现的自动微分,特别是采用反向模式(Reverse Mode)的实现方法。文中详细解释了操作符重载的基本概念及其在自动微分中的应用,以及反向模式的工作原理。通过 Python 示例代码,演示了如何手动实现类似 PyTorch 中自动微分的核心机制,包括定义 `Variable` 类、`Tape` 结构以及实现基本的数学运算符重载。最后,通过一个具体的数学函数示例展示了如何利用上述机制计算梯度,帮助读者理解反向模式自动微分的全过程。
  • 12.09 10:19:30
    发表了文章 2024-12-09 10:19:30

    【AI系统】动手实现自动微分

    本章介绍如何实现自动微分,重点讲解前向自动微分的原理及Python实现方法。通过操作符重载,将程序分解为基础表达式组合,利用链式法则计算导数。示例代码展示了如何使用自定义类`ADTangent`实现加、减、乘、log、sin等操作的自动微分,验证了与PyTorch和MindSpore等框架的一致性。
  • 12.09 10:18:23
    发表了文章 2024-12-09 10:18:23

    【AI系统】微分实现方式

    本文详细介绍了自动微分的三种实现方法:基本表达式、操作符重载和源代码转换。每种方法都有其特点和适用场景,包括它们的实现原理、优缺点。自动微分是机器学习和深度学习中的关键技术,理解这些实现方式有助于更好地掌握其背后的数学原理和工程实践。文中还提到了具体的应用案例和工具,如PyTorch和MindSpore,展示了这些方法在实际项目中的应用。
  • 12.08 17:21:05
    发表了文章 2024-12-08 17:21:05

    【AI系统】微分计算模式

    本文深入探讨了自动微分技术,这是AI框架中的核心功能。自动微分分为前向微分和后向微分两种模式,主要通过雅克比矩阵实现。前向模式适用于输出维度大于输入的情况,而后向模式则更适合多参数场景,广泛应用于现代AI框架中。文章还详细解释了这两种模式的工作原理、优缺点及应用场景。
  • 12.08 13:46:37
    发表了文章 2024-12-08 13:46:37

    【AI系统】什么是微分

    自动微分是一种高效准确的计算机程序求导技术,广泛应用于计算流体力学、大气科学、工业设计仿真优化等领域。随着机器学习的发展,自动微分技术与编程语言、计算框架紧密结合,成为AI框架的核心功能之一。本文介绍了自动微分的基本概念及其与手动微分、数值微分和符号微分的区别和优势。
  • 12.08 13:43:06
    发表了文章 2024-12-08 13:43:06

    【AI系统】自动微分引言

    本文聚焦AI框架中的自动微分功能,探讨其重要性及其实现方式。自动微分是AI框架的核心,支持正向和反向传播,确保模型的有效训练。文中介绍了微分的基本概念、自动微分的两种主要模式(前向和后向微分),以及其实现方法,包括表达式图、操作符重载和源码转换。此外,文章还展望了自动微分技术的未来发展与挑战,鼓励读者深入学习AI框架及其背后的原理。
  • 12.08 13:37:34
    发表了文章 2024-12-08 13:37:34

    【AI系统】昇思 MindSpore 关键特性

    本文介绍华为自研AI框架昇思MindSpore,一个面向全场景的AI计算框架,旨在提供统一、高效、安全的平台,支持AI算法研究与生产部署。文章详细阐述了MindSpore的定位、架构、特性及在端边云全场景下的应用优势,强调其动静态图统一、联邦学习支持及高性能优化等亮点。
  • 12.08 13:35:53
    发表了文章 2024-12-08 13:35:53

    【AI系统】框架编程范式

    编程范式是软件工程中一类典型的编程风格,如函数式、命令式、声明式、面向对象等。它们影响着开发者对程序执行的理解。本文探讨了两种主要的编程范式——声明式编程与命令式编程,特别是在AI框架中的应用,如TensorFlow的声明式编程和PyTorch的命令式编程,分析了这两种范式对AI框架架构设计的影响及主流AI框架在这两种范式上的差异。
  • 12.08 13:34:11
    发表了文章 2024-12-08 13:34:11

    【AI系统】AI 框架作用

    深度学习通过多层计算模型学习数据中的复杂结构,实现高级别的数据抽象。例如,CNN能从大量图像中学习猫和狗的特征。本文探讨深度学习原理及其计算中AI框架的应用,强调AI框架如何帮助自动求导,简化模型训练过程,以及在实际应用中的作用。
  • 12.08 13:33:23
    发表了文章 2024-12-08 13:33:23

    【AI系统】AI 框架基础介绍

    本文介绍了AI算法、神经网络及AI框架的基础概念,探讨了神经网络的作用、训练目的以及AI框架如何简化模型设计、训练与验证过程。文章还概述了AI框架的发展历程和技术演进,强调了国内外主要AI框架的特点及其对AI技术发展的推动作用。
  • 12.08 13:31:51
    发表了文章 2024-12-08 13:31:51

    【AI系统】推理内存布局

    本文介绍了CPU和GPU的基础内存知识,NCHWX内存排布格式,以及MNN推理引擎如何通过数据内存重新排布进行内核优化,特别是针对WinoGrad卷积计算的优化方法,通过NC4HW4数据格式重排,有效利用了SIMD指令集特性,减少了cache miss,提高了计算效率。
  • 12.08 13:29:19
    发表了文章 2024-12-08 13:29:19

    【AI系统】QNNPack 算法

    QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
  • 12.08 13:24:45
    发表了文章 2024-12-08 13:24:45

    【AI系统】Winograd 算法

    本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
  • 12.08 13:09:36
    发表了文章 2024-12-08 13:09:36

    【AI系统】Im2Col 算法

    Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
  • 12.08 03:01:55
    发表了文章 2024-12-08 03:01:55

    【AI系统】卷积操作原理

    本文详细介绍了卷积的数学原理及其在卷积神经网络(CNN)中的应用。卷积作为一种特殊的线性运算,是CNN处理图像任务的核心。文章从卷积的数学定义出发,通过信号处理的例子解释了卷积的过程,随后介绍了CNN中卷积计算的细节,包括卷积核、步长、填充等概念。文中还探讨了卷积的物理意义、性质及优化手段,如张量运算和内存布局优化。最后,提供了基于PyTorch的卷积实现示例,帮助读者理解和实现卷积计算。
  • 12.08 02:31:53
    发表了文章 2024-12-08 02:31:53

    【AI系统】Kernel 层架构

    推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
  • 12.08 02:30:45
    发表了文章 2024-12-08 02:30:45

    【AI系统】计算图的优化策略

    本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
  • 12.08 02:15:49
    发表了文章 2024-12-08 02:15:49

    【AI系统】离线图优化技术

    本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
  • 12.08 02:09:41
    发表了文章 2024-12-08 02:09:41

    【AI系统】计算图优化架构

    本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
  • 12.08 02:05:38
    发表了文章 2024-12-08 02:05:38

    【AI系统】模型转换流程

    本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
  • 12.08 02:03:49
    发表了文章 2024-12-08 02:03:49

    【AI系统】自定义计算图 IR

    本文介绍了模型转换的方法及流程,重点讲解了计算图的自定义方法和优化技术。通过IR(Intermediate Representation)将不同AI框架的模型转换为统一格式,实现跨平台高效部署。计算图由张量和算子构成,支持多种数据类型和内存排布格式,通过算子融合等优化技术提高模型性能。文章还详细说明了如何使用FlatBuffers定义计算图结构,包括张量、算子和网络模型的定义,为自定义神经网络提供了实践指南。
  • 12.08 02:01:55
    发表了文章 2024-12-08 02:01:55

    【AI系统】推理文件格式

    本文介绍了神经网络模型的序列化与反序列化技术,涵盖跨平台通用序列化方法(如 Protobuf 和 FlatBuffers)、模型自定义序列化方法、语言级通用序列化方法等,重点讨论了这两种流行文件格式的特点、使用场景及其在模型部署中的作用。
  • 12.08 01:57:48
    发表了文章 2024-12-08 01:57:48

    【AI系统】模型转换基本介绍

    模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
  • 12.08 01:54:27
    发表了文章 2024-12-08 01:54:27

    【AI系统】知识蒸馏原理

    本文深入解析知识蒸馏(Knowledge Distillation, KD),一种将大型教师模型的知识高效转移至小型学生模型的技术,旨在减少模型复杂度和计算开销,同时保持高性能。文章涵盖知识蒸馏的基本原理、不同类型的知识(如响应、特征、关系知识)、蒸馏方式(离线、在线、自蒸馏)及Hinton的经典算法,为读者提供全面的理解。
  • 12.08 01:49:44
    发表了文章 2024-12-08 01:49:44

    【AI系统】模型剪枝

    本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
  • 12.08 01:44:59
    发表了文章 2024-12-08 01:44:59

    【AI系统】训练后量化与部署

    本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
  • 12.08 01:40:54
    发表了文章 2024-12-08 01:40:54

    【AI系统】感知量化训练 QAT

    本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
  • 12.08 01:30:57
    发表了文章 2024-12-08 01:30:57

    【AI系统】低比特量化原理

    模型量化是将浮点数模型参数转化为低比特整数表示的技术,旨在减少模型大小、内存消耗及推理延迟,但会带来精度损失。本文介绍量化的基本原理、优势及挑战,涵盖量化训练、动态与静态离线量化等方法,并探讨线性与非线性量化、饱和与非饱和量化等技术细节。
  • 12.08 01:21:29
    发表了文章 2024-12-08 01:21:29

    【AI系统】模型压缩基本介绍

    模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
  • 12.07 23:31:11
    发表了文章 2024-12-07 23:31:11

    【AI系统】EfficientFormer 系列

    本文介绍了一种名为 EfficientFormer 的轻量化 Transformer 模型,旨在优化移动设备上的推理速度。通过重新设计 ViT 及其变体,特别是针对移动设备的延迟优化,EfficientFormer 引入了维度一致的 Transformer Block,并通过网络模型搜索获得了多个系列的模型。EfficientFormer V2 进一步改进了模型设计,引入细粒度联合搜索策略,优化了延迟和参数量,实现了更高的性能和效率。
  • 12.07 23:11:56
    发表了文章 2024-12-07 23:11:56

    【AI系统】MobileFormer

    本文介绍了MobileFormer,一种创新的网络结构,通过双线桥将MobileNet的局部特征与Transformer的全局特征相结合,实现了高效且低计算成本的模型设计。MobileFormer使用少量tokens来学习全局先验,从而在保持高性能的同时,显著降低了计算量。通过本文,读者可以深入了解如何有效结合CNN和Transformer的优势,实现模型的轻量化。
  • 12.07 23:06:12
    发表了文章 2024-12-07 23:06:12

    【AI系统】MobileVit 系列

    MobileViT系列是基于Vision Transformer(ViT)架构设计的轻量级视觉模型,专为移动设备和嵌入式系统优化。MobileViT V1通过结合局部卷积和全局Transformer机制,实现了高性能与低资源消耗的平衡。V2进一步优化了Transformer中的多头自注意力机制,引入了线性复杂度的可分离自注意力,显著提升了计算效率。V3则对融合模块进行了简化,用1x1卷积替代3x3卷积,减少了参数量,同时引入了残差连接,进一步提升了模型性能。这些改进使MobileViT系列在保持高效的同时,能够在资源受限的设备上运行,表现出色。
  • 12.07 19:19:59
    发表了文章 2024-12-07 19:19:59

    【AI系统】GhostNet 系列

    本文介绍了GhostNet系列网络,重点讲解了GhostNet V1和V2的改进。V1提出了Ghost Module,通过廉价操作生成更多特征图,构建轻量级网络。V2在此基础上引入了解耦全连接注意力(DFC)机制,增强了模型捕捉长距离依赖的能力,同时保持了高效的计算性能,特别适合移动设备。文章详细对比了V2与V1的区别,包括结构改进和性能提升。
  • 发表了文章 2024-12-19

    【AI系统】AI 框架之争

  • 发表了文章 2024-12-09

    【AI系统】昇思MindSpore并行

  • 发表了文章 2024-12-09

    【AI系统】混合并行

  • 发表了文章 2024-12-09

    【AI系统】完全分片数据并行 FSDP

  • 发表了文章 2024-12-09

    【AI系统】张量并行

  • 发表了文章 2024-12-09

    【AI系统】流水并行

  • 发表了文章 2024-12-09

    【AI系统】计算图的控制流实现

  • 发表了文章 2024-12-09

    【AI系统】动态图与静态图转换

  • 发表了文章 2024-12-09

    【AI系统】计算图挑战与未来

  • 发表了文章 2024-12-09

    【AI系统】数据并行

  • 发表了文章 2024-12-09

    【AI系统】并行训练基本介绍

  • 发表了文章 2024-12-09

    【AI系统】计算图与自动微分

  • 发表了文章 2024-12-09

    【AI系统】计算图的调度与执行

  • 发表了文章 2024-12-09

    【AI系统】计算图原理

  • 发表了文章 2024-12-09

    【AI系统】计算图基本介绍

  • 发表了文章 2024-12-09

    【AI系统】自动微分的挑战&未来

  • 发表了文章 2024-12-09

    【AI系统】动手实现 PyTorch 微分

  • 发表了文章 2024-12-09

    【AI系统】微分实现方式

  • 发表了文章 2024-12-09

    【AI系统】动手实现自动微分

  • 发表了文章 2024-12-08

    【AI系统】微分计算模式

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息