AI芯片的搜索结果_热门_第11页-阿里云开发者社区

楠竹11

|

博文

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源

【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法，旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理，支持混合精度矩阵乘法，无需解量化。其通过位级查表实现统一且可扩展的解决方案，优化数据布局和重用率，显著提升了单线程和多线程下的mpGEMV及mpGEMM性能，并在端到端推理吞吐量和能效方面表现出色。然而，表量化和快速聚合技术可能引入近似和数值误差，影响模型准确性。论文详见：[链接](https://www.arxiv.org/pdf/2407.00088)。

# 算法 # 测试技术 # AI芯片

游客7dgyrbdm3doqi

|

博文

如何使用Ascend的ATB加速库？

ATB加速库专为Transformer模型优化设计，基于华为Ascend AI处理器，提升训练和推理效率。本文档详细介绍了如何实现一个ATB算子，涵盖基础Operation、插件机制和Graph Frame三种方式，从环境准备、算子创建、资源管理到最终执行，提供了完整的代码示例和步骤指南，帮助开发者快速掌握ATB算子的开发流程。

# 人工智能 # 程序员 # 开发者 # AI芯片

游客jnstwksgqnrgi

|

博文

|

来自：大数据与机器学习

新手入门：DGL在昇腾上的安装问题

本文介绍了在aarch64架构和Python 3.10环境下安装DGL（Deep Graph Library）的过程。首先通过`uname -a`确认硬件架构，接着使用`python --version`检查Python版本。为确保兼容性，从指定链接下载适合的whl包或通过pip安装dgl。过程中遇到了torchdata版本不兼容的问题，通过降级torchdata至0.7.1版本解决。此外，针对NPU芯片适配，重新安装了与CANN 8.0.RC2兼容的torch和torch_npu组件。最终成功导入dgl包并准备进行模型训练验证。

# PyTorch # 算法框架/工具 # 芯片 # Python # AI芯片

modelscope

|

10月前

|

博文

|

来自： ModelScope模型即服务

智源开源FlagOS升级：首次实现DeepSeek-R1满血版多种芯片高效快速部署

近日，DeepSeek-R1以低训练成本实现比肩一流模型的高性能并全面开源，引发了海量部署及场景应用，推理计算需求迅猛增长。

# 自然语言处理 # 并行计算 # PyTorch # 芯片 # AI芯片

modelscope

|

10月前

|

博文

|

来自： ModelScope模型即服务

实战 | Intel OpenVINO™ Day0 实现 Qwen3 快速部署

# API # 开发者 # 异构计算 # Python # AI芯片

技术员阿伟

|

8月前

|

博文

《大模型背后的隐形战场：异构计算调度全解析》

在大模型训练中，CPU、GPU和AI芯片各司其职：CPU擅长逻辑控制，GPU专攻并行计算，AI芯片则针对特定AI任务优化。然而，实现三者的高效协同面临诸多挑战，如任务分配、通信延迟及资源管理等问题。通过动态任务分配、通信优化与资源调整等策略，可提升训练效率。未来，随着硬件进步和算法智能化，异构计算协同调度将更加高效，并结合云计算、边缘计算等技术拓展应用范围，推动人工智能技术发展。

# 云解析DNS # 人工智能 # 调度 # 芯片 # 异构计算 # AI芯片

Alter聊科技

|

2月前

|

博文

CANN全面开源开放：把创新的主动权交给开发者

CANN全面开源，打破AI生态“黑盒”与绑定困局。从算子库到编程语言全栈开放，赋能开发者透明调试、灵活定制，推动从“能用”到“敢用”再到“好用”的跨越。通过社区共建、分层解耦、千行万业协同创新，重塑计算产业规则，助力AI落地可信、可持续发展。（239字）

# 人工智能 # 并行计算 # 开发者 # AI芯片 # Python

码农小达人

|

博文

xNN：蚂蚁端侧深度学习框架

# 机器学习/深度学习 # 存储 # 人工智能 # 算法 # 搜索推荐 # 物联网 # 文件存储 # 芯片 # 异构计算 # AI芯片

云计算助手

|

博文

2023年阿里云GPU服务器租用价格表，附阿里云GPU服务器常见问题解答

2023年阿里云GPU服务器租用价格表，附阿里云GPU服务器常见问题解答。阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用，阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡，GPU云服务器gn6i可享受3折优惠，阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表：

# GPU云服务器 # 云服务器 ECS # 超级计算集群 # 弹性裸金属服务器 # 弹性计算 # 虚拟化 # 异构计算 # AI芯片

游客gt7qofxar6rlw

|

10月前

|

博文

服务化参数调优实战

本文介绍了服务化性能调优的全流程，以Llama3-8B模型为例。首先需完成MindIE环境安装、下载模型权重与测试数据集。接着通过计算npuMemSize和maxBatchSize，maxPrefillBatchSize（272）与maxPrefillTokens，并更新配置进行性能测试。结果显示，参数调优后吞吐量提升18%。此方法为大模型性能优化提供了实用指导。

# 测试技术 # AI芯片

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI芯片