AI芯片的搜索结果_文章_第11页-阿里云开发者社区

游客7dgyrbdm3doqi

|

博文

本文介绍了AscendC算子的开发流程，包括核函数开发、算子类定义及其实现、核函数的CPU和NPU侧运行验证。通过具体示例`add_custom.cpp`，详细展示了如何使用Ascend C完成算子核函数的定义、初始化、数据搬运和计算过程，并提供了完整的CPU和NPU侧调用程序代码，帮助开发者理解和实践AscendC算子的开发。

# 测试技术 # 开发者 # 异构计算 # AI芯片

游客7dgyrbdm3doqi

|

博文

如何使用Ascend的ATB加速库？

ATB加速库专为Transformer模型优化设计，基于华为Ascend AI处理器，提升训练和推理效率。本文档详细介绍了如何实现一个ATB算子，涵盖基础Operation、插件机制和Graph Frame三种方式，从环境准备、算子创建、资源管理到最终执行，提供了完整的代码示例和步骤指南，帮助开发者快速掌握ATB算子的开发流程。

# 人工智能 # 程序员 # 开发者 # AI芯片

游客7dgyrbdm3doqi

|

博文

Ascend Extension for PyTorch是个what？

Ascend Extension for PyTorch 是针对华为昇腾处理器的PyTorch框架适配插件，旨在让PyTorch开发者能充分利用昇腾AI处理器的强大计算能力。此扩展通过最小化对原生PyTorch的改动，实现了对昇腾NPU的支持，包括动态图特性、自动微分等功能的完整继承，并提供了与原生PyTorch一致的使用体验。项目详情及源码可在昇腾社区获取。

# 人工智能 # PyTorch # 算法框架/工具 # Python # AI芯片

游客7dgyrbdm3doqi

|

博文

Ascend Extension for PyTorch的源码解析

本文介绍了Ascend对PyTorch代码的适配过程，包括源码下载、编译步骤及常见问题，详细解析了torch-npu编译后的文件结构和三种实现昇腾NPU算子调用的方式：通过torch的register方式、定义算子方式和API重定向映射方式。这对于开发者理解和使用Ascend平台上的PyTorch具有重要指导意义。

# 云解析DNS # PyTorch # Shell # API # 算法框架/工具 # AI芯片

Alter聊科技

|

博文

“芯片围城”下国产AI要放缓？答案或截然相反

12月2日，美国对华实施新一轮出口限制，将140余家中国企业列入贸易限制清单。对此，中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限，但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务，提供全栈自主的算力解决方案，包括大规模算力集群、AI框架等，旨在应对AI算力需求，确保算力供给的稳定性和安全性，助力中国AI产业持续发展。

# 人工智能 # 数据安全/隐私保护 # 数据中心 # 芯片 # AI芯片

ZOMI酱

|

博文

【AI系统】内存分配算法

本文探讨了AI编译器前端优化中的内存分配问题，涵盖模型与硬件内存的发展、内存划分及其优化算法。文章首先分析了神经网络模型对NPU内存需求的增长趋势，随后详细介绍了静态与动态内存的概念及其实现方式，最后重点讨论了几种节省内存的算法，如空间换内存、计算换内存、模型压缩和内存复用等，旨在提高内存使用效率，减少碎片化，提升模型训练和推理的性能。

# GPU云服务器 # 机器学习/深度学习 # 人工智能 # 算法 # 异构计算 # AI芯片

aliyun5606190238

|

博文

|

来自： ModelScope模型即服务

智谱开源端侧大语言和多模态模型GLM-Edge系列！

GLM-Edge系列模型是由智谱开源，专为端侧应用设计的大语言对话模型和多模态理解模型，包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B四种尺寸。这些模型针对手机、车机及PC等不同平台进行了优化，通过量化的技术手段，实现了高效运行。例如，在高通骁龙8 Elite平台上，1.5B对话模型和2B多模态模型能够达到每秒60 tokens以上的解码速度，而通过应用投机采样技术，这一数字可提升至100 tokens以上。

# 数据采集 # 文字识别 # 测试技术 # Swift # AI芯片

ZOMI酱

|

博文

【AI系统】寒武纪介绍

中科寒武纪科技股份有限公司，成立于2016年，致力于打造云边端一体、软硬件协同的智能芯片产品和平台化基础系统软件。寒武纪的产品线涵盖了终端智能处理器IP、边缘端和云端智能加速卡，形成了从1A处理器核到思元系列MLU100、MLU200、MLU300的完整布局。其核心技术包括高效的MLU Core架构和Cambricon Neuware软件栈，支持高性能AI计算，助力机器更好地理解和服务人类。

# GPU云服务器 # 人工智能 # 算法框架/工具 # 芯片 # AI芯片 # 内存技术

ZOMI酱

|

博文

【AI系统】谷歌 TPU v4 与光路交换

TPU v4 是谷歌在 TPU v3 发布四年后推出的最新一代 AI 加速器，采用了 7nm 工艺，MXU 数量翻倍，内存容量和带宽显著提升。TPU v4 引入了 Sparse Core 以优化稀疏计算，首次采用了 3D Torus 互联方式，通过 Palomar 光路开关芯片减少系统延迟和功耗。TPU v4 Pod 实现了 1.126 Exaflops 的 BF16 峰值算力，展现了谷歌在大规模并行计算领域的突破。然而，TPU v4 也面临着系统成熟度低、拓扑僵硬和负载均衡问题等挑战。

# 机器学习/深度学习 # 人工智能 # 芯片 # AI芯片 # Perl

ZOMI酱

|

博文

【AI系统】谷歌 TPU v2 训练芯片

2017年，谷歌推出TPU v2，专为神经网络训练设计，标志着从推理转向训练的重大转变。TPU v2引入多项创新，包括Vector Memory、Vector Unit、MXU及HBM内存，以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机，显著提升大规模模型训练的效率和性能。

# 机器学习/深度学习 # 存储 # 人工智能 # 芯片 # AI芯片

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI芯片