AI芯片

首页 标签 AI芯片
# AI芯片 #
关注
1339内容
|
6天前
|
《Apple Silicon与Windows on ARM:引擎原生构建与模拟层底层运作深度解析》
本文深度解析Apple Silicon与Windows on ARM平台下,引擎本地二进制构建与模拟层的底层运作逻辑及技术差异。Apple Silicon依托自研芯片与统一内存架构,实现原生构建的全链路硬件适配,其Rosetta 2模拟层采用静态预编译+动态转译的混合策略,与硬件深度协同。Windows on ARM则围绕多编译链兼容、多元硬件生态做动态适配,模拟层以动态二进制转译闭环实现x86指令向ARM的精准映射。
|
8天前
|
拆开“超节点”的伪装:没有内存统一编址,仍是服务器堆叠
当万亿参数大模型成为常态,AI“军备竞赛”已升级为系统级对决。“超节点”应运而生,但真伪之别在于是否实现“内存统一编址”——唯有打破通信墙、构建全局地址空间,才能让集群如单机般高效协同。缺此核心,皆为伪超节点。
DiTASK:用“橡皮泥手术”改造ViT,一次搞定多个视觉任务
大家好,我是AI技术博主maoku。本文详解前沿多任务学习方法DiTASK:它创新性地通过**固定ViT的奇异向量、仅微调奇异值**,并引入**轻量微分同胚变换**(每层仅32参数),实现高效、低干扰的多任务适配——在语义分割、深度估计等任务上性能提升26.27%,参数量减少75%。
|
1月前
|
JAX性能优化实战:7个变换让TPU/GPU吃满算力
JAX性能提升七技巧:jit稳定形状、vmap替代循环、scan融合长序列、remat用计算换内存、pmap单机多卡、pjit实现SPMD并行、value_and_grad正确组合。配合分片与aux输出,最大化XLA优化,提升计算效率。
探索热辐射:红外发射率的调控艺术与应用(隐身篇)
红外辐射无处不在,物体通过热辐射在空气中传播红外线,而8~14μm等“大气窗口”波段可被探测。红外热成像仪利用温度差异生成图像,广泛应用于军事侦察。实现红外隐身需降低辐射强度,主要途径包括调控发射率、控制温度及阻隔传播。低发射率涂层、隔热材料、相变材料(如VO₂)、超材料与仿生设计等技术不断发展,推动智能、多频谱兼容隐身材料研发。EM10便携式测量仪实现3-5μm与8-14μm双波段同步高精度检测,助力材料研发与现场质量监控,促进红外隐身技术向高效、协同、实用化方向迈进。
|
2月前
| |
来自: 数据库
AI芯片算力翻10倍,背后的“隐形功臣”与“中国力量”
传统的摩尔定律正在逼近物理极限,单纯依靠制程微缩已无法满足AI对算力的指数级增长需求。先进封装技术,这个曾经被视为“后端工艺”的环节,如今已成为决定AI芯片性能的关键因素。
边缘 AI 芯片,为啥越来越“不像芯片”?聊聊这些年我看到的架构创新
边缘 AI 芯片,为啥越来越“不像芯片”?聊聊这些年我看到的架构创新
|
2月前
|
04_昇腾推荐系统:单双层架构解析
单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
|
2月前
|
05_推荐系统准入与淘汰策略技术详解
本文详解推荐系统多级缓存中的准入淘汰策略,涵盖基于访问频次、概率、ShowClick等准入机制,以及基于时间、L2范数、频次等淘汰机制,结合CPU-PS控制流程与NPU执行优化,实现缓存资源高效利用,提升模型训练效率与推荐精度。
|
2月前
|
07_昇腾嵌入表性能提升
本文介绍嵌入表性能优化的六大策略:多流并行掩盖通信延迟,Pin Memory加速数据传输,两级去重减少计算冗余,通信模式优化降低开销,梯度累积节省内存,并结合实验验证效果,全面提升训练效率与资源利用率。
免费试用