开发者社区 > 龙蜥操作系统 > 视频 > 正文

基于龙蜥操作系统的AI服务器GPU RAS增强技术|龙蜥大讲堂

发布者:龙蜥社区(OpenAnolis) 2026-06-11 17:21:21 38
视频介绍

在AI算力快速发展的今天,GPU已经成为AI服务器的核心引擎,但随之而来的稳定性、可观测性和故障定位问题,也对底层基础设施提出了更高要求。本视频将以“GPU黑匣子”技术应用为例,介绍如何基于龙蜥操作系统增强AI服务器的GPU RAS能力,提升GPU在运行过程中的可靠性、可用性与可维护性。通过对GPU关键状态、异常信息和运行日志的持续记录与分析,帮助运维人员在故障发生前提前感知风险,在故障发生后快速定位问题,从而有效降低AI训练与推理任务中断带来的影响,构建更加稳定、高效的AI算力底座。


视频标签:

龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。

+关注
龙蜥社区(OpenAnolis)
欢迎加入OpenAnolis龙蜥社区:钉钉群号 43205002258。
文章
问答
视频
相关文章
更多