AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子
本文介绍了AscendC算子的开发流程,包括核函数开发、算子类定义及其实现、核函数的CPU和NPU侧运行验证。通过具体示例`add_custom.cpp`,详细展示了如何使用Ascend C完成算子核函数的定义、初始化、数据搬运和计算过程,并提供了完整的CPU和NPU侧调用程序代码,帮助开发者理解和实践AscendC算子的开发。
为什么感觉欧美AI比我们强?
本文介绍了电视机、电脑、手机、原子弹和飞机等重要发明的起源,其中大部分发明均源自美国。文中还探讨了中美在AI领域的竞争,指出美国在创新方面领先,而中国则在规模化生产和应用方面表现出色。尽管存在差距,但中国在算力、算法、数据和人才等方面持续加大投入,逐渐缩小与美国的差距。
首个全球AI出口管制规则出台,中国AI路在何方?
在CES 2025上,英伟达宣布Blackwell芯片全面投产,GB200芯片为大语言模型推理带来30倍性能提升,成本和能耗降低25倍。然而,1月13日白宫公布的“临时最终规则”对AI芯片出口进行严格限制,引发市场悲观情绪。新规将全球分为三级,中国大陆被列为Tier 3,面临先进芯片进口禁令和模型权重管控,加剧了中国AI产业的挑战。尽管如此,华为云、科大讯飞等企业通过自主创新,如昇腾AI云服务,提供了稳定可靠的算力解决方案,展现了中国科技企业的韧性和创新精神,推动大模型生态的发展。
《从“平”到“立”,3D集成技术如何重塑AI芯片能效版图》
3D集成技术正革新人工智能芯片的性能与能效。传统2D芯片设计受限于平面空间,信号传输延迟、能耗高;而3D集成通过垂直堆叠芯片层,大幅缩短信号路径,提升数据处理速度和计算密度,同时降低能耗并优化电源管理。它在数据中心和边缘设备中展现出巨大潜力,助力图像识别、语音处理等任务高效完成。尽管面临散热与成本挑战,但随着技术进步,3D集成有望成为AI芯片主流,推动人工智能更广泛的应用与创新。
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
《大模型背后的隐形战场:异构计算调度全解析》
在大模型训练中,CPU、GPU和AI芯片各司其职:CPU擅长逻辑控制,GPU专攻并行计算,AI芯片则针对特定AI任务优化。然而,实现三者的高效协同面临诸多挑战,如任务分配、通信延迟及资源管理等问题。通过动态任务分配、通信优化与资源调整等策略,可提升训练效率。未来,随着硬件进步和算法智能化,异构计算协同调度将更加高效,并结合云计算、边缘计算等技术拓展应用范围,推动人工智能技术发展。