AI芯片

首页 标签 AI芯片
# AI芯片 #
关注
1345内容
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
sam模型迁移昇腾训练loss不收敛问题的解决办法
在将SAM模型迁移到昇腾平台时,遇到了精度问题。具体表现为NPU训练的loss图从一开始就未收敛,而GPU则正常收敛。通过使用Ascend开源仓的msprobe工具进行精度对比,发现NPU丢失了image_embedding的梯度,原因在于torch_npu版本与PyTorch不匹配,导致`repeat_interleave_backward_tensor`函数调用失败。最终通过选择与PyTorch配套的torch_npu版本解决了问题,loss图恢复正常。
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI AlphaGo Zero也不能幸免:训练34小时的AlphaZero胜过了训练72小时的AlphaGo Zero。
余凯重磅发布地平线中国芯“征程”与“旭日”,中国首款嵌入式人工智能视觉芯片问世
终于,余凯创办地平线两年后发布了首款芯片——两颗面向计算机视觉的处理器,分别用于无人驾驶和智能摄像头。我们第一时间带来芯片性能和特点介绍。新智元采访了地平线另一位联合创始人黄畅和芯片首席架构师周峰。针对目前许多AI明星创业公司开始做AI芯片,他们说,要做不难,但做好不易,提醒大家谨慎。
高性能SoC FPGA原型验证系列——综述
本系列博文将结合自己在FPGA原型验证方面的工作经验,先从总体上探讨FPGA原型验证的优势和挑战,然后介绍市面常见的FPGA原型平台并分析各自的优缺点,随后重点介绍平头哥高性能SoC使用的FPGA原型平台,后续还会就FPGA原型中的关键技术进一步展开讨论,并给出自己的一些经验和技巧总结,希望通过系列博文能带给读者关于FPGA原型验证一个系统的认识。当然,我更希望参与FPGA原型平台工作的同学能够一起切磋技艺,为平台建设出谋划策,快速迭代我们的平台,让我们一起打造更加Smart的FPGA原型平台.
平头哥芯片:云端一体的数字经济之“芯”
数字经济区别于农业经济和工业经济,大数据和算力是主要生产要素。我国已迎来数字经济时代,阿里平头哥旨在通过底层芯片的创新,助力推进阿里经济体以及各行业的数字化进程。在阿里CIO学院技术攻疫(公益)大咖说第二十讲中,平头哥半导体副总裁孟建熠博士将为大家介绍数字经济时代芯片的关键作用以及阿里构建的云端一
免费试用