异构计算

首页 标签 异构计算
# 异构计算 #
关注
19114内容
|
8小时前
|
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
本文介绍了使用四块Framework主板构建AI推理集群的过程,并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能评估。集群支持CPU、GPU及混合推理,配合Beowulf AI Cluster工具实现快速部署。测试涵盖单节点性能、能效比、网络与GPU加速表现,重点分析并行推理能力及现有开源工具的适用性与局限性。
|
17小时前
| |
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
|
3天前
|
AI Agent 发展趋势与架构演进
本文介绍了编程范式的演进,从传统软件1.0、2.0时代进入大模型驱动的软件3.0时代,重点解析了AI原生应用与AI Agent的核心概念、开发关键问题及参考架构。同时探讨了Workflow与Agent模式、单Agent与多Agent的适用场景,以及提示词工程与上下文工程的差异。文章还介绍了Spring AI Alibaba、Nacos、Higress、RocketMQ等关键技术组件在AI原生应用中的作用,并提出了AI Agent可观测性解决方案,涵盖性能指标、链路追踪与质量评估等内容。最后介绍了开源项目LoongSuite的规划,助力AI原生应用的开发与优化。
|
3天前
|
AI Agent 发展趋势与架构演进
本文介绍了编程范式的演进,从传统软件1.0、神经网络2.0,发展到大模型驱动的软件3.0时代,重点解析了AI原生应用(AI Native)的核心概念与开发范式。文章详细探讨了AI Agent的构建方式,包括Workflow模式与Agent模式、单Agent与多Agent的适用场景,以及提示词工程与上下文工程的差异。同时,介绍了AI原生应用的参考架构,涵盖Spring AI Alibaba、Nacos、Higress、RocketMQ等关键技术组件,并深入分析了AI Agent的可观测性解决方案,包括性能指标、链路追踪与质量评估。最后,文章分享了阿里云在AI原生应用领域的开源项目规划
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
新手主播实战教程:YY开播工具+OBS美颜插件配置,零基础实现专业级直播画质
本文面向对直播画质有高要求的开发者与专业主播,详解如何通过YY开播工具的虚拟摄像头功能,将其美颜能力无缝集成至OBS推流软件,弥补OBS原生美颜功能的不足。内容涵盖软硬件准备、核心对接步骤及YY美颜参数调优技巧,帮助用户实现专业级直播视觉效果,同时提供常见问题解答,确保配置顺利。
|
4天前
| |
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
免费试用