AI芯片的搜索结果_文章-阿里云开发者社区

Deephub

|

11天前

|

博文

本文总结8条JAX在TPU上高效训练的工程实践：固定Shape、使用bfloat16+FP32主权重、显式pjit切分、jit/vmap/scan融合、优化数据管道、PRNG与Step/Device绑定、Remat与梯度累积、善用Profiler。遵循这些原则可避免重编译与内存瓶颈，最大化TPU算力利用率，实现高效稳定训练。

# 算法 # 编译器 # AI芯片 # Python

小6子哥

|

1月前

|

博文

|

来自：云原生

MATLAB R2024b 数据分析软件，安装详细步骤，附安装包

MATLAB R2024b 发布，聚焦性能提升与稳定性优化，支持GPU加速、5G/6G工具链及HDL代码生成，新增NPU硬件支持，配合深色界面与调试增强，助力高效科学计算与工程设计。

# 并行计算 # 数据挖掘 # 5G # 异构计算 # AI芯片

Deephub

|

2月前

|

博文

|

来自：大数据与机器学习

Google开源Tunix：JAX生态的LLM微调方案来了

Tunix是Google推出的基于JAX的LLM后训练库，支持微调、强化学习与知识蒸馏，集成Flax NNX，主打TPU优化与模块化设计，支持QLoRA等高效训练方法，适用于高性能分布式训练场景。

# 机器学习/深度学习 # 算法 # 物联网 # API # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

118_LLM模型量化与压缩：从理论到2025年实践技术详解

大型语言模型（LLM）在自然语言处理领域取得了前所未有的成功，但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型（如GPT-4或LLaMA 3）可能包含数千亿甚至万亿参数，需要数百GB甚至TB级的存储空间，并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。

# 机器学习/深度学习 # PyTorch # 算法框架/工具 # 异构计算 # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

65_GPU选择：A100 vs RTX系列

在2025年的今天，大语言模型（LLM）已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1，从专业领域应用到消费级产品，LLM正在以前所未有的速度改变着我们的工作和生活方式。然而，这些强大模型的训练和部署背后，都离不开高性能计算硬件的支持，尤其是GPU（图形处理单元）的选择，往往直接决定了项目的可行性、效率和成本。

# GPU云服务器 # 人工智能 # 自然语言处理 # 数据中心 # 异构计算 # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

75_TPU集成：Google Cloud加速

在大型语言模型(LLM)训练和推理的竞赛中，计算硬件的选择直接决定了研发效率和成本。Google的Tensor Processing Unit(TPU)作为专为AI计算设计的专用芯片，正逐渐成为大规模LLM开发的首选平台之一。随着2025年第七代TPU架构Ironwood的发布，Google在AI计算领域再次确立了技术领先地位。

# PyTorch # 算法框架/工具 # 异构计算 # AI芯片 # Perl

aliyun9170107523-43660

|

2月前

|

博文

24_BERT模型详解：从预训练到微调的全方位指南

BERT（Bidirectional Encoder Representations from Transformers）是由Google AI在2018年推出的革命性预训练语言模型，它彻底改变了自然语言处理（NLP）领域的格局。通过创新的双向训练方式，BERT能够捕捉词语在上下文环境中的完整语义信息，从而在各种下游任务中取得了突破性的表现。

# 人工智能 # 自然语言处理 # 调度 # AI芯片 # SEO

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

42_大语言模型的计算需求：从GPU到TPU

随着2025年大语言模型技术的持续突破和规模化应用，计算资源已成为推动AI发展的关键驱动力。从最初的CPU计算，到GPU加速，再到专用AI加速器的崛起，大语言模型的计算需求正在重塑全球数据中心的基础设施架构。当前，全球AI半导体市场规模预计在2027年将达到2380亿美元（基本情境）甚至4050亿美元（乐观情境），这一增长背后，是大语言模型对计算能力、内存带宽和能效比的极致追求。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 芯片 # 异构计算 # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

# 大模型优化与压缩技术：2025年的实践与突破

2025年，随着大语言模型的规模和复杂度不断提升，模型优化与压缩技术已成为AI产业落地的关键瓶颈和研究热点。根据最新统计，顶级大语言模型的参数规模已突破万亿级别，如DeepSeek-R1模型的6710亿参数规模，这带来了前所未有的计算资源需求和部署挑战。在这种背景下，如何在保持模型性能的同时，降低计算成本、减少内存占用、提升推理速度，已成为学术界和产业界共同关注的核心问题。

# 机器学习/深度学习 # 人工智能 # 物联网 # 异构计算 # AI芯片

DuHz

|

3月前

|

博文

|

来自：物联网

H4H：面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读

H4H是一种面向AR/VR应用的混合卷积-Transformer架构，基于NPU-CIM异构系统，通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络（CNN）的局部特征提取与视觉Transformer（ViT）的全局信息处理能力，提升模型性能与效率。通过两阶段增量训练策略，缓解混合模型训练中的梯度冲突问题，并利用异构计算资源优化推理延迟与能耗。实验表明，H4H在相同准确率下显著降低延迟和功耗，为AR/VR设备上的边缘AI推理提供了高效解决方案。

# 机器学习/深度学习 # 人工智能 # vr&ar # Ruby # AI芯片

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI芯片