AI芯片

首页 标签 AI芯片
# AI芯片 #
关注
1350内容
智创 AI 新视界 -- 提升 AI 推理速度的高级方法(16 - 2)
本文深度聚焦提升 AI 推理速度,全面阐述模型压缩(低秩分解、参数量化)、硬件加速(GPU、TPU)及推理算法优化(剪枝感知推理、动态批处理)。结合图像识别等多领域案例与丰富代码示例,以生动形象且专业严谨的方式,为 AI 从业者提供极具价值的技术指南,助力突破 AI 推理速度瓶颈,实现系统性能跃升。
NSA推理在昇腾芯片上的一种亲和实现方案
本文提出昇腾AI芯片上NSA推理的亲和优化方案:①创新设计稀疏系数矩阵,将compress中importance score计算转为高效矩阵乘,实现online softmax,耗时从200μs降至80+μs;②融合无依赖的select与sliding算子,消除约40μs开销。综合加速比达8.8×,逼近理论极限11.6×。(239字)
AI英语单词APP的开发
AI英语单词APP聚焦“记忆科学×生成式内容”,告别静态词书:基于语义向量+RAG+LLM,为每位用户动态生成职业相关例句、AI梗图、视觉扫街及对话测验,融合进化版SRS与端侧NPU适配,2026年真正实现千人千面的智能背词。(239字)
寒武纪副总裁王在:解读陈天石“3年占领10亿终端”小目标和端云一体战略
寒武纪副总裁王在发表演讲《寒武纪@终端,但开风气不为师》。11月6日,寒武纪首次发布会,CEO陈天石提出“3年占领10亿智能AI终端,占领中国AI云端高性能芯片1/3市场”的目标。王在的演讲从终端重要性切入,全面解读寒武纪端云一体智能芯片战略。
含光800NPU开发指南(二)【芯片与软件栈系列之----含光十八式】
前言 本章节介绍基于HanGuangAI软件运行时(RunTime)的开发。这些运行时编程接口既可以整合到框架中,也可以用来实现推理引擎,或者直接被AI应用程序使用。现阶段,他们是运行时控制使用含光NPU的唯一编程接口。 当前AI计算芯片的架构各异,表现在软件接口上,就是没有一套标准的编程接口。Nvidia的领头羊地位,由其通用计算拓展到AI计算领域,但由于芯片架构之间差别太大,它的编程接口并
阿里云服务器购买时云服务器架构如何选择
阿里云服务器在架构上有x86计算 异构计算GPU/FPGA/NPU 弹性裸金属服务器(神龙)、超级计算集群之分,他们各自有什么特点和适用场景?
解密万亿参数M6模型预训练背后的分布式框架Whale
最近,阿里云PAI团队和达摩院智能计算实验室一起发布“低碳版”巨模型M6,大幅降低万亿参数超大模型训练能耗。借助我们自研的Whale框架仅使用480卡GPU,即训练出了规模达人类神经元10倍的万亿参数多模态大模型M6,与传统海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近11倍。
DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
深度学习(Deep Learning, DL)或阶层学习(hierarchical learning)是机器学习的技术和研究领域之一,通过建立具有阶层结构的人工神经网络(Artifitial Neural Networks, ANNs),在计算系统中实现人工智能 。由于阶层ANN能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习(representation learning)能力 ,可以实现端到端的监督学习和非监督学习 。此外,深度学习也可参与构建强化学习(reinforcement learning)系统,形成深度强化学习 。
阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持
智能升级后,阿里云(智能)于 3 月 21 日召开了第一场发布会,主论坛上,不仅发布了与 AI 相关的产品,还透露了阿里自研的第一款 NPU 将于今年下半年推出的消息。
免费试用