GPU云服务器的搜索结果_第7页-阿里云开发者社区

ZOMI酱

|

14天前

|

博文

本文详细分析了谷歌TPU v1的架构与设计，重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元（MXU）、累加器及控制指令单元，特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现，展示了TPU v1在提升神经网络计算吞吐量方面的显著优势，尤其是在低延迟和高能效方面。

# GPU云服务器 # 机器学习/深度学习 # 缓存 # 芯片 # 异构计算 # AI芯片

ZOMI酱

|

14天前

|

博文

【AI系统】谷歌 TPU 历史发展

本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路，自2016年首次推出以来，经历了多次迭代升级，包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新，如低精度计算、脉动阵列、专用硬件设计等，并探讨了TPU在数据中心和边缘计算中的实际应用效果，以及谷歌如何通过TPU推动移动计算体验的进步。

# GPU云服务器 # 机器学习/深度学习 # 数据中心 # 芯片 # AI芯片 # Perl

ZOMI酱

|

14天前

|

博文

【AI系统】NV Switch 深度解析

英伟达的NVSwitch技术是高性能计算领域的重大突破，旨在解决多GPU系统中数据传输的瓶颈问题。通过提供比PCIe高10倍的带宽，NVLink实现了GPU间的直接数据交换，减少了延迟，提高了吞吐量。NVSwitch则进一步推动了这一技术的发展，支持更多NVLink接口，实现无阻塞的全互联GPU系统，极大提升了数据交换效率和系统灵活性，为构建强大的计算集群奠定了基础。

# 云解析DNS # GPU云服务器 # 机器学习/深度学习 # 人工智能 # 数据处理 # 芯片 # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】NVLink 原理剖析

随着AI技术的发展，大模型参数量激增，对底层硬件和网络架构提出新挑战。高效训练这些模型需要大规模GPU集群及高速网络连接，以实现快速数据交换。然而，网络瓶颈限制了GPU性能的充分发挥，表明单纯增加GPU数量不能线性提升算力。因此，算存互连和算力互连技术成为关键，如PCIe、NVLink和NVSwitch等，它们通过提高数据传输速度和效率，支持大规模并行计算，解决了大规模GPU集群中的通信延迟问题，推动了万亿级模型训练的实现。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 并行计算 # 芯片 # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】分布式通信与 NVLink

进入大模型时代后，AI的核心转向大模型发展，训练这类模型需克服大量GPU资源及长时间的需求。面对单个GPU内存限制，跨多个GPU的分布式训练成为必要，这涉及到分布式通信和NVLink技术的应用。分布式通信允许多个节点协作完成任务，而NVLink则是一种高速、低延迟的通信技术，用于连接GPU或GPU与其它设备，以实现高性能计算。随着大模型的参数、数据规模扩大及算力需求增长，分布式并行策略，如数据并行和模型并行，变得至关重要。这些策略通过将模型或数据分割在多个GPU上处理，提高了训练效率。此外，NVLink和NVSwitch技术的持续演进，为GPU间的高效通信提供了更强的支持，推动了大模型训练的快

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 并行计算 # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】Tensor Core 深度剖析

Tensor Core 是英伟达 GPU 的关键技术，专为加速深度学习计算设计，尤其擅长矩阵乘法和卷积运算。通过混合精度计算，Tensor Core 使用半精度（FP16）输入输出，内部以全精度（FP32）计算，确保精度同时提高效率。相比传统 CUDA Core，Tensor Core 每个时钟周期可执行 64 个浮点运算，大幅提升计算速度。其工作原理包括指令流水线、线程执行等多级优化，确保高效并行处理。通过分块、分配和并行执行策略，Tensor Core 能有效处理大规模矩阵计算，极大加速神经网络模型的训练和推断。

# GPU云服务器 # 存储 # 机器学习/深度学习 # 并行计算 # API # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】Tensor Core 架构演进

自2017年Volta架构推出以来，英伟达的GPU架构不断进化，从Volta的张量核心（Tensor Core）革新，到Turing的整数格式支持，再到Ampere的稀疏矩阵计算优化，以及Hopper的FP8张量核心和Transformer引擎，直至2024年的Blackwell架构，实现了30倍的LLM推理性能提升。每一代架构都标志着深度学习计算的重大突破，为AI技术的发展提供了强大的硬件支持。

# GPU云服务器 # 机器学习/深度学习 # 存储 # 人工智能 # 并行计算 # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】Tensor Core 基本原理

本文深入介绍了英伟达GPU中的Tensor Core，一种专为加速深度学习设计的硬件单元。文章从发展历程、卷积计算、混合精度训练及基本原理等方面，详细解析了Tensor Core的工作机制及其在深度学习中的应用，旨在帮助读者全面理解Tensor Core技术。通过具体代码示例，展示了如何在CUDA编程中利用Tensor Core实现高效的矩阵运算，从而加速模型训练和推理过程。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 并行计算 # API # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】GPU 架构回顾（从2018年-2024年）

2018年发布的Turing图灵架构，采用12nm工艺，包含18.6亿个晶体管，大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core，分别用于实时光线追踪和加速深度学习计算，支持GDDR6内存，显著提升了数据传输速率和效率。此外，Turing架构还支持NVLink 2.0，增强了多GPU协同工作的能力，适用于复杂的图形渲染和深度学习任务。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 缓存 # 并行计算 # 异构计算

ZOMI酱

|

14天前

|

博文

【AI系统】GPU 架构回顾（从2010年-2017年）

自1999年英伟达发明GPU以来，其技术不断革新。本文概述了从2010年至2024年间，英伟达GPU的九代架构演变，包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升，还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展，以及Tensor Core、NVLink等技术的迭代，巩固了英伟达在计算领域的领导地位。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 并行计算 # 调度 # 异构计算

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

GPU云服务器