AI芯片的搜索结果_文章_第3页-阿里云开发者社区

技术员阿伟

|

6月前

|

博文

Python虽是AI开发首选语言，但在大规模计算和AI芯片优化中存在效率短板。C语言虽高效但开发复杂度高。Mojo作为Python超集，兼容其语法并引入C级执行速度，通过编译优化、内存管理改进及硬件抽象层支持，大幅提升AI芯片性能。在神经网络训练与实时推理场景中，Mojo显著缩短时间、降低延迟，为AI开发者提供强大工具，展现广阔前景。

# 人工智能 # C语言 # 开发者 # Python # AI芯片

1330219825944132

|

6月前

|

博文

NPU适配推荐系统GR模型流程

本示例将开源Generative Recommendations模型迁移至NPU训练，并通过HSTU融合算子优化性能。基于Atlas 800T A2平台，使用PyTorch 2.1.0、Python 3.11.0等环境。文档涵盖容器启动、依赖安装、算子适配、源码修改、数据预处理及配置文件设置等内容。性能测试显示，使用HSTU融合算子可显著降低端到端耗时（如ml_1m数据集单step从346ms降至47.6ms）。

# 搜索推荐 # 测试技术 # C语言 # AI芯片 # 容器

1330219825944132

|

6月前

|

博文

昇腾910-PyTorch 实现 Vggnet图像分类

本实验基于昇腾平台，使用PyTorch实现Vggnet模型对CIFAR10数据集进行图像分类。内容涵盖Vggnet模型创新点（小卷积核堆叠、深层网络结构）、网络架构剖析及代码实战分析。通过定义`blockVGG`函数构建卷积块，实现VGG11网络，并结合数据预处理、训练与测试模块完成分类任务。实验展示了深度学习中增加网络深度对性能提升的重要性。

# 算法 # PyTorch # 算法框架/工具 # 网络架构 # AI芯片

1330219825944132

|

6月前

|

博文

基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络

本实验基于PyTorch Geometric，在昇腾平台上实现GraphSAGE图神经网络，使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征，支持归纳式学习，适用于未见节点的表征生成。实验包括模型搭建、训练与验证，并在NPU上运行，最终测试准确率达0.665。

# 机器学习/深度学习 # 算法 # PyTorch # 算法框架/工具 # AI芯片

1330219825944132

|

6月前

|

博文

基于昇腾用PyTorch实现CTR模型DIN（Deep interest Netwok）网络

本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN（Deep Interest Network）。主要内容包括：DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示，利用Amazon-book数据集训练DIN模型，最终评估其点击率预测性能。文中还提供了代码示例，帮助读者更好地理解每个步骤的实现细节。

# 机器学习/深度学习 # 搜索推荐 # PyTorch # 算法框架/工具 # AI芯片

1330219825944132

|

6月前

|

博文

基于Pytorch Gemotric在昇腾上实现GAT图神经网络

本实验基于昇腾平台，使用PyTorch实现图神经网络GAT（Graph Attention Networks）在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练，验证模型性能，并展示NPU上的内存使用情况。最终，模型在测试集上达到约36.60%的准确率。

# 机器学习/深度学习 # 自然语言处理 # PyTorch # 算法框架/工具 # AI芯片

1330219825944132

|

6月前

|

博文

基于Pytorch 在昇腾上实现GCN图神经网络

本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络（GCN）对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作，适用于非欧氏结构数据。文章以两层GCN模型为例，结合Cora数据集（2708篇科学出版物，1433个特征，7种类别），展示了从数据加载到模型训练的完整流程。实验在NPU上运行，设置200个epoch，最终测试准确率达0.8040，内存占用约167M。

# 机器学习/深度学习 # PyTorch # 算法框架/工具 # 网络架构 # AI芯片

青云交（Java大数据AI云原生Python）

|

6月前

|

博文

|

来自：视觉智能

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

本文深度聚焦提升 AI 推理速度，全面阐述模型压缩（低秩分解、参数量化）、硬件加速（GPU、TPU）及推理算法优化（剪枝感知推理、动态批处理）。结合图像识别等多领域案例与丰富代码示例，以生动形象且专业严谨的方式，为 AI 从业者提供极具价值的技术指南，助力突破 AI 推理速度瓶颈，实现系统性能跃升。

# 机器学习/深度学习 # 人工智能 # 算法 # 异构计算 # AI芯片

RaceSnail

|

6月前

|

博文

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分

本文针对NPU不支持LOOP算子的问题，提出一种解决方案：将ONNX模型拆分为含LOOP算子和不含LOOP算子的子图，单独推理LOOP部分。通过构造包含LOOP算子的ONNX模型，将其转换为JSON格式提取子图，并对子图进行修改（如添加输入节点、删除无关节点）。最后，将JSON转回ONNX格式，完成模型切分与优化。此方法适用于关键路径上的LOOP算子，可有效解决离线推理中的兼容性问题。

# JSON # 数据格式 # AI芯片

RaceSnail

|

6月前

|

博文

飞桨x昇腾生态适配方案：07_性能数据分析

本文介绍了性能调优的全流程，包括分析、定位与优化。通过 profiling 工具采集算子级性能数据，定位计算与调度通信瓶颈。针对计算时间过长问题，可通过升级算子或提交工单解决；调度优化则关注重复编译，关闭在线编译或使用 aclnn 算子可提升效率。数据采集使用 paddlepaddle 的 profiler 工具，结合 msprof 解析生成的性能数据，重点分析 op_statistic_*.csv 和 op_summary_*.csv 文件，通过关键字段（如 Ratio、Total Time、Task Duration 和 Task Wait Time）量化性能瓶颈并实施优化策略。

# 数据采集 # Web App开发 # 数据挖掘 # 调度 # AI芯片

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI芯片