AI芯片

首页 标签 AI芯片
# AI芯片 #
关注
1337内容
|
16天前
|
昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查
本文深度解析Triton-Ascend开源项目,涵盖源码结构、编译流程与环境部署,重点针对Ascend 910B硬件提供从CANN安装到算子开发的保姆级指南,并详解Autotune调优策略与性能分析工具,助力开发者高效构建高性能AI算子。
|
16天前
|
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
|
17天前
|
CANN全面开源开放:把创新的主动权交给开发者
CANN全面开源,打破AI生态“黑盒”与绑定困局。从算子库到编程语言全栈开放,赋能开发者透明调试、灵活定制,推动从“能用”到“敢用”再到“好用”的跨越。通过社区共建、分层解耦、千行万业协同创新,重塑计算产业规则,助力AI落地可信、可持续发展。(239字)
|
26天前
|
分享一款端侧AI部署工具Nexa SDK
2025年AI硬件爆发,但云端大模型面临成本高、隐私差、延迟大等问题。开源小模型崛起,推动边缘AI发展。Nexa SDK应运而生,提供跨平台统一推理框架,支持NPU/GPU/CPU深度适配,实现低代码、高性能、多模态模型Day-0支持,兼容OpenAI API,助力手机、PC、汽车、IoT等端侧AI快速落地,重塑智能体验。
|
26天前
|
大模型推理优化实战:从延迟到吞吐的工程权衡
在人工智能从“能用”迈向“好用”的关键阶段,大语言模型(LLM)的部署效率已成为产品落地的核心瓶颈。开发者常面临一个现实困境:模型在实验室跑得飞快,上线后却响应迟缓、成本飙升。本文将深入探讨大模型推理中的关键技术挑战与优化策略,帮助工程师在延迟(Latency)、吞吐量(Throughput)和成本之间找到最佳平衡点。
|
1月前
|
JAX 训练加速指南:8 个让 TPU 满跑的工程实战习惯
本文总结8条JAX在TPU上高效训练的工程实践:固定Shape、使用bfloat16+FP32主权重、显式pjit切分、jit/vmap/scan融合、优化数据管道、PRNG与Step/Device绑定、Remat与梯度累积、善用Profiler。遵循这些原则可避免重编译与内存瓶颈,最大化TPU算力利用率,实现高效稳定训练。
|
2月前
| |
来自: 云原生
MATLAB R2024b 数据分析软件,安装详细步骤,附安装包
MATLAB R2024b 发布,聚焦性能提升与稳定性优化,支持GPU加速、5G/6G工具链及HDL代码生成,新增NPU硬件支持,配合深色界面与调试增强,助力高效科学计算与工程设计。
|
3月前
| |
Google开源Tunix:JAX生态的LLM微调方案来了
Tunix是Google推出的基于JAX的LLM后训练库,支持微调、强化学习与知识蒸馏,集成Flax NNX,主打TPU优化与模块化设计,支持QLoRA等高效训练方法,适用于高性能分布式训练场景。
免费试用