产品评测 | 欢迎来到大模型时代的操作系统管理平台

简介: 操作系统管理平台是一款专为提升Linux使用效率而设计的工具,提供运维管理、智能助手、扩展组件管理等功能,用户可通过该平台进行系统概览、诊断和观测,确保集群健康运行。安装简便,涵盖内存、存储、网络等多维度诊断,并生成详细报告。特别推荐给需要管理大量ECS资源的运维工程师,免费且功能强大。体验链接:https://alinux.console.aliyun.com/。

一、引言

我是一位开发运维工程师,日常工作主要本地涉及云资源的运维和管理。在日常工作中,无论是服务器的配置管理、故障排查,还是应用部署与性能调优,Linux系统都扮演着核心角色。因此,对于任何能够提升Linux使用效率和便捷性的工具,我都抱有极大的兴趣和期待。

二、产品介绍

操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。

主要功能特性如下:
image.png

三、产品开通与组件安装

1、登录操作系统控制台。然后开通服务。

image.png

需要先创建SysOM服务关联角色
image.png

创建完成后进入操作系统控制台。
image.png

2、安装管控组件和AI组件。

image.png

安装管控组件,我这里选择节点,点击执行。
image.png

image.png

执行成功。
image.png

同理安装AI组件。

两个组件都显示安装成功。
image.png

三、产品使用

1、系统概览

可以看到集群的健康分,健康指标,节点数量,CPU、内存、磁盘、网络的指标。我这里只有1个节点,不知道有多个节点的时候,CPU、内存、磁盘、网络显示的是总和还是平均值?

image.png

集群实时健康状态:

  1. 健康:该等级表明集群中存在亚健康状态实例,可关注具体节点健康状态。
  2. 亚健康:该等级表明集群存在亚健康或不健康实例,可关注具体节点健康状态。
  3. 不健康:该等级表明集群存在不健康或严重不健康实例,需要密切关注具体节点健康状态。
  4. 严重不健康:该等级表明集群存在较多严重不健康实例,需要马上查看具体节点健康状态。

集群健康指标:

  • 饱和度:饱和度用来衡量操作系统的承载能力,一般是操作系统相关资源的使用率。如常见的系统物理资源的使用率:内存使用率,CPU使用率、磁盘使用率;还有内核资源的使用率:如文件描述符使用率、inode使用率等。
  • 延迟:代表操作系统处理某个请求(任务调度、内存申请、IO、网络) 所需要的时间。
  • 负载:当前系统的数据流入流出的数据统计,用来衡量服务的承载能力,不同系统的流量有不同的含义,对于操作系统来说,流量可以指网络,io流量等。
  • 错误:当前操作系统发生错误请求或者发送错误事件的数量,通常为计数值;如系统发生OOM(Out of Memory)的次数,系统发生丢包事件的次数,系统发生夯机事件次数等。

下一行是历史健康详情,可以自定去检索历史的健康情况。包括异常事件分析、TOP10节点健康列表、健康分趋势、节点健康占比、节点问题占比。

image.png

点击可以进一步查看具体节点健康。
image.png

image.png

2、系统诊断

五大系统诊断类型:内存诊断、存储诊断、网络诊断、调度诊断、场景诊断。每个大项后面还有小项。
image.png

1)内存诊断->支持内存全景分析和OOM(Out of Memory)诊断,能够在实例级别进行诊断并生成相应的诊断报告。
image.png

会生成诊断报告。
image.png
image.png

2)存储诊断—>支持IO流量分析功能,具备实例级别的分析能力,能够在特定统计周期内对磁盘的IO流量进行分析并生成诊断报告。
image.png

会生成诊断报告。
image.png

IO流量分析报告。
image.png

3)网络诊断—> 支持丢包诊断功能,具备实例级别的诊断能力,并能够生成相应的诊断报告。
image.png

查看报告,一切正常。
image.png

4)调度诊断—>支持调度抖动诊断功能,具备实例级别的支持,能够在特定时长及抖动阈值下进行诊断。
image.png

查看报告。
image.png

5)场景诊断—>宕机诊断
image.png

查看报告,无宕机。
image.png

3、系统观测

1)进程热点追踪,用于单个实例在特定时刻的热点分析,支持生成进程热点时序图。

使用场景

  • 业务应用性能波动的场景。
  • 进程竞争,出现系统资源抢占。
  • 系统自身原因:
    1)在特定时刻,停止对高活跃度(热点)函数进行拦截或监控的钩子机制未能正常运作。
    2)—当系统内存紧张时,为了保证当前活跃程序的运行,操作系统频繁地进行换页操作。
    3)访问资源开销较大的sys接口、proc接口等。

image.png

函数表
image.png

图表结合
image.png

热点火焰图
image.png

调用图谱
image.png

支持检索
image.png

2)热点对比分析,用于单个实例在不同时刻、不同实例在同一或不同时刻进行热点对比分析。支持生成进程热点时序图、热点火焰图及调用图谱。

这里对比了单个实例在不同时刻的热点对比分析。给出了分析结论,这里有一键优化就好了,或者优化建议给具体的指导步骤或参考链接。
image.png

函数热点火焰图。
image.png

3)AI Infra观测,用于0侵入、灵活、低开销地观测AI作业。试了下没有GPU分析失败。

image.png

4、系统管理

系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。
image.png
可以查看实例系统状态及诊断信息。

image.png

5、组件管理

组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作。
image.png

image.png

查看组件详情。
image.png

卸载与更新。
image.png

6、订阅管理

订阅管理是操作系统所提供的相关服务的订阅功能。在订阅管理中,用户可以通过创建订阅来使用相应服务,并通过订阅历史记录查看详细信息。
Alibaba Cloud Linux 2延保和CentOS 7安全更新订阅使用。
image.png

7、OS Copilot 对话机器人

在页面右上角召唤出 OS Copilot 对话机器人。
image.png

问下它 AI Infra观察如何使用?

image.png

解释倒是正确,就是给的参考链接不对。
image.png

系统的内存占用过大了,应该怎么优化?
image.png

四、总结与建议

本次测评的操作系统服务套件以AI为核心引擎,提供了一站式的免费操作系统服务。该套件功能丰富且实用,界面设计简洁明了,操作便捷,用户体验良好。智能助手OS Copilot的加入更是为该系统增添了亮点,大大提高了工作效率。

下面是针对本次测试的一些问题和建议:

1、饱和度、延迟、负载、错误这四个指标如何来计算集群健康分的,有没有详细的说明文档。
image.png

2、这里的健康度和云服务诊断的健康状态,两者底层计算是一样的吗?若不同,哪个更有参考价值一点。

image.png

3、诊断都是近实时的,如何诊断历史时间的问题。比如某个过去的时间段有故障。

image.png

4、官方文档中没有及时更新,比如AI Infra观测、场景诊断都没有介绍。
image.png
image.png

image.png

5、希望生成的报告可以支持导出以及批量导出。

image.png
image.png

6、系统诊断中是否可以做一键诊断,把五类诊断都涵盖在里面。这样就不用自己每个都要执行一遍。
image.png

类似于云服务诊断里的一键诊断。
image.png

7、系统观测中的分析结果,有一键优化就好了,或者优化建议能给具体的指导步骤或参考链接。

image.png

8、系统管理是分地域的,若有好几个不同的地域ECS,无法在同一界面展示,这是是否能做成不分区域的。
image.png

9、希望和云监控中的报警规则联动,一旦节点处于不健康或者亚健康可以查看告警通知到管理员。
image.png

10、没有看到如何具体使用API、SDK、CLI等管理
image.png

整体来说,操作系统管理平台对于运维大量的ECS资源会提供很大的帮助,拥有了全局的视角,况且还是免费的。推荐更多的人来体验下,直达链接大模型时代的操作系统管理平台)。

相关文章
|
17天前
|
运维 Ubuntu 测试技术
阿里云 OS Colilot 使用方法及评测
本文介绍了OS Copilot的安装与功能测试。作为一位运维工程师,我在阿里云Ubuntu 24.04机器上成功安装并测试了OS Copilot的-t/-f/管道功能。测试结果显示,除了管道符识别存在一些问题外,OS Copilot在任务指令处理和系统巡检等方面表现出色,能够显著简化操作流程,提升工作效率。建议在未来版本中优化管道符识别,并谨慎引导用户执行不确定的命令。总体而言,OS Copilot是一个非常有用的运维工具,已在我的工作中发挥了积极作用。
57 15
|
16天前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
48 13
|
18天前
|
弹性计算 运维 Ubuntu
阿里云 OS Colilot 使用方法及评测
作为一名后端研发工程师兼公司运维,我经常使用阿里云维护服务器和管理云服务。最近尝试了OS Copilot的-f/-t/管道功能 此外,我还测试了普通模式、自动模式、文件定义任务及命令解释功能。其中自动模式表现出色,而文件定义任务和默认英文解释则存在问题。总体而言,OS Copilot在某些方面显著提高了运维效率,但仍需改进。
|
17天前
|
弹性计算 运维 架构师
初见阿里云 OS Copilot 评测
### 阿里云 OS Copilot 操作系统智能助手评测报告 **评测人员身份:山东云管家售前架构师** #### 1、功能体验 1. **基本命令**:`co --help` 显示了丰富的命令选项,支持交互模式和文件输入。 2. **健康检查**:使用 `-t` 参数可自动执行系统健康检查,简化操作流程,提升效率。 3. **批量任务**:通过 `-f` 参数读取文件中的复杂任务并自动执行,适合频繁运维需求。 4. **管道功能**:支持直接解析配置文件,快速理解并优化系统参数。 #### 2、总结与反馈 OS Copilot 具备高效性和易用性,特别适用于中高级运维工程师。但仍需改进对自
|
16天前
|
测试技术 数据库 开发工具
云产品评测|操作系统智能助手OS Copilot新功能
我是一名测试工程师,主要负责App和Web端的测试,有时会使用阿里云服务器进行服务端问题定位及数据库等云资源的操作。在使用OS Copilot过程中遇到了一些问题: 1. **命令执行失败**:在解决Vim中文乱码时,Copilot建议的命令看似正确,但实际并未创建或修改`.vimrc`文件。 2. **任务文件解析问题**:使用`-f`功能解析任务文件时,Copilot未能正确执行获取容器日志的任务。 3. **管道功能不稳定**:管道功能对文件内容解释有效,但在某些情况下需要更明确的提示词才能正常工作。
|
17天前
|
弹性计算 Ubuntu Linux
OS Copilot评测
本文介绍了OS Copilot的使用体验。
OS Copilot评测
|
14天前
|
弹性计算 运维 自然语言处理
|
1天前
|
人工智能 运维 监控
AI驱动的操作系统服务评测报告
作为一位运维工程师,我使用Alibaba Cloud Linux 3操作系统进行云资源的运维和管理。通过控制台可快速开通并管理云资源,界面简洁、功能明确。安装SysOM和OS Copilot组件简单高效,支持实时监控集群健康状况,并提供精准的系统诊断与优化建议。OS Copilot智能助手能有效解答技术问题,提升工作效率。针对EOL系统的订阅服务提供了安全迁移保障。整体体验优秀,尤其适合中小企业降低运维复杂度。建议进一步优化权限管理、增加报告导出功能及增强Copilot交互性。
|
1天前
|
弹性计算 运维 自然语言处理
评测报告:OS Copilot 功能体验与效率提升
作为一名运维工程师,我体验了阿里云OS Copilot智能助手。选择Alibaba Cloud Linux ECS实例安装并运行OS Copilot,通过命令`sudo yum install -y os-copilot`完成安装。重点测试了-t、-f及管道功能:-t参数提升任务执行效率约30%,-f实现一键处理复杂任务,管道功能简化参数理解与配置。整体评价认为该工具实用高效,建议增加预设模板和优化自然语言理解能力。
|
20天前
|
人工智能 弹性计算 运维
操作系统智能助手OS Copilot新功能 评测
作为一名游戏开发工程师,我近期对阿里云Copilot进行了详细评测。Copilot支持多种Linux系统,具备完整的思维链推理能力,能处理复杂任务,大幅减轻运维工作量。它覆盖了大部分常用命令和参数,适合中高级运维工程师。虽然存在一些缺陷,但其在代码解读、错误分析等方面表现出色,极大提升了工作效率。强烈推荐有运维需求的用户使用Copilot,未来运维离不开它。 附上Copilot文档链接:[点击查看](https://help.aliyun.com/zh/alinux/user-guide/instructions-for-os-copilot)
96 26