AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
本文介绍了使用四块Framework主板构建AI推理集群的过程,并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能评估。集群支持CPU、GPU及混合推理,配合Beowulf AI Cluster工具实现快速部署。测试涵盖单节点性能、能效比、网络与GPU加速表现,重点分析并行推理能力及现有开源工具的适用性与局限性。
AI Agent 发展趋势与架构演进
本文介绍了编程范式的演进,从传统软件1.0、2.0时代进入大模型驱动的软件3.0时代,重点解析了AI原生应用与AI Agent的核心概念、开发关键问题及参考架构。同时探讨了Workflow与Agent模式、单Agent与多Agent的适用场景,以及提示词工程与上下文工程的差异。文章还介绍了Spring AI Alibaba、Nacos、Higress、RocketMQ等关键技术组件在AI原生应用中的作用,并提出了AI Agent可观测性解决方案,涵盖性能指标、链路追踪与质量评估等内容。最后介绍了开源项目LoongSuite的规划,助力AI原生应用的开发与优化。
AI Agent 发展趋势与架构演进
本文介绍了编程范式的演进,从传统软件1.0、神经网络2.0,发展到大模型驱动的软件3.0时代,重点解析了AI原生应用(AI Native)的核心概念与开发范式。文章详细探讨了AI Agent的构建方式,包括Workflow模式与Agent模式、单Agent与多Agent的适用场景,以及提示词工程与上下文工程的差异。同时,介绍了AI原生应用的参考架构,涵盖Spring AI Alibaba、Nacos、Higress、RocketMQ等关键技术组件,并深入分析了AI Agent的可观测性解决方案,包括性能指标、链路追踪与质量评估。最后,文章分享了阿里云在AI原生应用领域的开源项目规划
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。