产品简介
首先来一段官方的介绍:操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能,支持通过API、SDK、CLI等管理方式。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。看到这大多数人可能跟我一样,似懂非懂。这段介绍着实太书面化,初次接触难免生涩。实际上比较通俗的解释是:它就是一个智能服务器管家,能更好地帮你实现智能化管理。具备如下特性:
- 便捷易用:通过可视化页面管理操作系统,降低使用复杂度。
- 高效:通过可视化页面进行操作,可有效分析问题,无需依赖众多工具。
- 专业:可替代操作系统专业人员,分析问题并提供专业指导意见。
首次登录
如果你是首次使用,也就是第一次登录的话,需要进行开通。点击链接进入控制台主页开通即可。
点击开通服务按钮后,会有一个关联角色的弹窗提示,点击创建角色即可。
完成以上步骤后,你就来到了操作系统管理平台的首页。如下:
在正式开始体验平台的功能前,我们还需要准备ECS实例,就像控制台首页提示的那样,需要准备集群/节点资源,以便纳管。但这里要注意的是,不是任何一个操作系统的ECS实例都可以进行纳管的,目前平台所能支持的操作系统及版本如下:
- Alibaba Cloud Linux 2/3
- CentOS 7.6及以上版本
- Anolis 8.4以上版本
对于如何准备对应操作系统版本的ECS实例,这里就不再赘述了,社区里已经有非常多好用且详细的文案可参考,感兴趣的小伙伴需自行前往进行搜索获取。
有了ECS实例后,第一步就是将其纳管到平台里,这里就需要首先安装管控组件到实例中,点击控制台的组件管理,选择SysOM安装即可。这里为了体验方便,将智能助手组件也一并进行安装。
选择安装后,来到安装引导页面,组件操作可选安装、更新和卸载,这里我们选择安装。操作方式这类可选节点和集群,我们选择节点,因为是单台实例,如果你是多实例,可选集群。勾选主机,点击执行即可。
执行后,会有弹窗提示,耐心等待执行完成即可。
执行完成同样会有提示
这是我们已经进行了主机纳管了。同样的方式我们执行安装AI助手组件,这里就省略步骤截图了。这时控制台点击系统概览就可以看到有主机的数据展示了。
功能体验
系统健康
这里你也可以理解为是集群健康或者主机健康,主要监测的是主机的CPU、内存、磁盘和网络的资源利用情况以及其发生的异常,通过综合评分得到一个健康度,也就是页面呈现的健康分。
用户可以通过控制台左侧的系统概览,也可以直接找到对应的节点或主机,点击节点健康到达。
这两个页面唯一的差异就是POD数量的显示差异,在控制台首页系统概览这里显示的是集群,所以有多少台主机就会显示多少数量,从单个主机查看节点健康时,呈现的时该节点的一个健康情况,所以呈现的时节点本身,所以POD数量自然就是0,但严格来说,这里也应该显示1,因为本身也可以是1。
也许看到POD,很多小伙伴会联想到K8s,这里暂时你是可以这么理解的。因为页面设计是集群总览,节点只是集群中的一部分。
系统诊断
诊断功能对于节点或者集群来说是非常重要的,点击控制台的系统诊断即可进入。目前支持五大场景的诊断,且每个诊断模块仅有两个诊断项。
单个诊断耗时是很理想的,基本几十秒就能完成,完成后可以点击该条诊断,点击查看报告。
从诊断报告来看,内容还是非常专业且详细的。比如对IO进行流量诊断,报告会从磁盘级IO、进程级IO和进程IO块大小多维度进行综评,杜绝单个维度分析不严谨的问题。
而对应内存的使用诊断中更是罗列了所有进程的使用量,真的是太详细了,但要挑点毛病的话,就是这个不支持按大小排列。
系统观测
点击控制台左侧的系统观测入口就来到了功能区,目前支持观测的有三个,分别是进程热点追踪、热点对比分析和AI Infra观测。
进程热点追踪用于单个节点在某一时段的热点分析,并生成进程的调用图谱。它主要的功能就是快速识别应用程序中的性能瓶颈和热点问题。比如我对AliYunDunMonito进程做了热点追踪,结论如下。
可以看到结果中不但给出了结果,还针对结果可能出现的原因进行了分析,并结合大模型给出了优化建议。对于开发者或者运维技术来说还是非常实用的。
当应用性能波动等因素导致系统指标异常的情况下,可以通过热点对比时序图和差分火焰图的方式,协助用户识别实例中相同或不同进程在时间维度上的热点差异。比如我这里对比了ilogtail进程和AliYunDun进程。
通过进程对比,可以非常直观清晰了解到进程热度,同样通过AI大模型对其进行了分析并给出了中肯的优化和建议。
而对于AI Infra观测则需要主机配有GPU,且有地域限制。这里我们选择一个作业PID进行分析。
在当下AI盛行的节点,对于AI作业进行观测分析是很必要的,通过观测,用户可以清晰了解AI的处理速度是否符合预期,算子是否存在瓶颈等。想一探究竟的同学可以通过官方的云起实验来体验。GPU 云服务器部署 DeepSeek-R1 模型_部署教程
订阅服务
点击控制台左侧导航栏中的订阅管理就可以实现对主机进行资源包源的订阅服务了。对于能否使用订阅服务依赖于操作系统版本,目前支持订阅的操作系统很少,仅Centos 7.9及以上,Anlios 7及以上和Alibaba Cloud Linux 2 ELS支持。在创建订阅时发现并没有实例显示,就要注重检查下操作系统版本是否在支持范围内。
完成订阅后,可以看到其订阅信息,通过shell执行yum repolist即可看出差异。
订阅前
订阅后
从shell执行结果来看,订阅后多了centos-els的源。有了订阅的源更新后,技术人员就可以非常方便地实现漏洞修复和组件更新了。
智能助手
对于OS Copilot智能助手的使用,通过组件管理,选择对应实例,安装AI组件。
目前看来,平台仅能实现对实例智能助手的安装、更新和卸载,并不能实现在控制台就可以访问具体实例助手的能力。在控制台首页右上角的OS Copilot是独立于具体实例的,这点要尤其注意。要实际用上实例上的OS Copilot助手还需要通过shell窗口配置好环境变量,如ALIBABA_CLOUD_ACCESS_KEY_ID和ALIBABA_CLOUD_ACCESS_KEY_SECRET,否则会出现如下截图上的报错:
所以这里的智能助手功能仅是统一纳管,也即是可以实现对助手组件的安装、更新和卸载。但控制台右侧的助手也有其用处的,比如技术问答。
对于OS Copilot智能助手的详细使用分享,这里就不再赘述了,感兴趣的伙伴可以查看我往期的分享文章,链接如下,欢迎前来阅读。
体验总结
我是一位能源科技企业的产品经理,曾几何时我也是部分技术团队成员之一,经常穿梭于主机组件安装和补丁更新的工作中,也就是每天都要面对云资源的运维和管理。我目前所在企业使用的操作系统基本是CentOS或OpenEuler。本次体验我使用了操作系统控制台的全部功能模块,系统健康作为了解集群或主机资源使用和运行情况最直接的一个入口,目前整体是好用的,但存在美中不足,下面将逐个分享;系统诊断和系统观测同样非常好用,但当下存在诊断任务少和不支持自定义任务的问题,建议商用时可以优化;而订阅服务作为EOL系统的最后一道守护,对企业和生产安全非常必要且重要,是个很大的特色;智能助手的统一纳管解决了集群多主机不能自动化管理的问题,且可以通过控制台右侧的助手实现实时问答,很实用。
- 意见或建议
1、位于平台右侧的这个智能助手可以点击第二个按钮实现吸附固定在右侧,但有个问题就是无法缩小,这个情况下就存在非常明显的内容遮盖,这个设计需要优化,比如可以手动缩小;(这个问题浮动窗口虽然可以解决,但既然设计了固定吸附,就要允许手动缩小)此外,助手对话框右上的四个按钮只有x没有文字描述,应该也加上,比如关闭或者隐藏,以达到样式统一。
2、系统健康并不是实时采集的,且健康状态更新延迟还是蛮大的,大概得1分钟左右。比如我主机已经关机了,此时节点健康差不多15秒后看到没数据了,可这时系统概览里显示依旧还是正常的。启动主机开始采集数据依旧存在延迟问题。
对于系统健康实际上还存在一个问题,就是资源情况仅能看到即刻的,对于历史运行并没有入口进行查看,这点属于功能缺失,建议加上,因为用户想要的并不单是一个健康分,对于单个资源的历史运行情况也要分析,尤其是波峰,用户可以通过历史运行情况得到业务实际的压力发生在何时,从而针对性进行扩容或者调优。
3、从实际体验来看 ,默认页面刷新的时间是5秒,且没有入口让用户进行自定义设置,这点不友好。建议参照监控工具上的刷新时间间隔配置,最低可以是1秒。
4、系统诊断是不可以同时运行两个诊断任务的,但当你同时点击执行时却又可以正常提交,实际上是没有添加并运行的。建议修改这段提示为,已有诊断任务在运行,请耐心等待。
5、在订阅管理中,文档中所列出的操作系统限制并不全面,从订阅管理页面所能支持的来看,其实还有Anolis 7及以上版本才对。而对于Centos系统版本的描述也是有出入的,实际上只有CentOS 7.9及以上才可以,低版本的话还需要update到7.9。
此外,对于已经取消的订阅记录是不可以进行其他操作的,比如再次订阅或者删除这条记录。这里属于功能缺失,建议补全。
6、控制台右侧的智能助手高峰时段存在响应超时问题,建议增加资源或者优化。