本次演讲重点介绍面向大规模数据中心的GPU RAS能力建设要求,包括大规模数据中心集成过程中遇到的痛点问题,GPU RAS功能及管理要求、GPU系统级故障注入、错误报告及调试转储等内容。
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。