产品评测 | 欢迎来到大模型时代的操作系统管理平台

简介: 操作系统管理平台是一款专为提升Linux使用效率而设计的工具,提供运维管理、智能助手、扩展组件管理等功能,用户可通过该平台进行系统概览、诊断和观测,确保集群健康运行。安装简便,涵盖内存、存储、网络等多维度诊断,并生成详细报告。特别推荐给需要管理大量ECS资源的运维工程师,免费且功能强大。体验链接:https://alinux.console.aliyun.com/。

一、引言

我是一位开发运维工程师,日常工作主要本地涉及云资源的运维和管理。在日常工作中,无论是服务器的配置管理、故障排查,还是应用部署与性能调优,Linux系统都扮演着核心角色。因此,对于任何能够提升Linux使用效率和便捷性的工具,我都抱有极大的兴趣和期待。

二、产品介绍

操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。

主要功能特性如下:
image.png

三、产品开通与组件安装

1、登录操作系统控制台。然后开通服务。

image.png

需要先创建SysOM服务关联角色
image.png

创建完成后进入操作系统控制台。
image.png

2、安装管控组件和AI组件。

image.png

安装管控组件,我这里选择节点,点击执行。
image.png

image.png

执行成功。
image.png

同理安装AI组件。

两个组件都显示安装成功。
image.png

三、产品使用

1、系统概览

可以看到集群的健康分,健康指标,节点数量,CPU、内存、磁盘、网络的指标。我这里只有1个节点,不知道有多个节点的时候,CPU、内存、磁盘、网络显示的是总和还是平均值?

image.png

集群实时健康状态:

  1. 健康:该等级表明集群中存在亚健康状态实例,可关注具体节点健康状态。
  2. 亚健康:该等级表明集群存在亚健康或不健康实例,可关注具体节点健康状态。
  3. 不健康:该等级表明集群存在不健康或严重不健康实例,需要密切关注具体节点健康状态。
  4. 严重不健康:该等级表明集群存在较多严重不健康实例,需要马上查看具体节点健康状态。

集群健康指标:

  • 饱和度:饱和度用来衡量操作系统的承载能力,一般是操作系统相关资源的使用率。如常见的系统物理资源的使用率:内存使用率,CPU使用率、磁盘使用率;还有内核资源的使用率:如文件描述符使用率、inode使用率等。
  • 延迟:代表操作系统处理某个请求(任务调度、内存申请、IO、网络) 所需要的时间。
  • 负载:当前系统的数据流入流出的数据统计,用来衡量服务的承载能力,不同系统的流量有不同的含义,对于操作系统来说,流量可以指网络,io流量等。
  • 错误:当前操作系统发生错误请求或者发送错误事件的数量,通常为计数值;如系统发生OOM(Out of Memory)的次数,系统发生丢包事件的次数,系统发生夯机事件次数等。

下一行是历史健康详情,可以自定去检索历史的健康情况。包括异常事件分析、TOP10节点健康列表、健康分趋势、节点健康占比、节点问题占比。

image.png

点击可以进一步查看具体节点健康。
image.png

image.png

2、系统诊断

五大系统诊断类型:内存诊断、存储诊断、网络诊断、调度诊断、场景诊断。每个大项后面还有小项。
image.png

1)内存诊断->支持内存全景分析和OOM(Out of Memory)诊断,能够在实例级别进行诊断并生成相应的诊断报告。
image.png

会生成诊断报告。
image.png
image.png

2)存储诊断—>支持IO流量分析功能,具备实例级别的分析能力,能够在特定统计周期内对磁盘的IO流量进行分析并生成诊断报告。
image.png

会生成诊断报告。
image.png

IO流量分析报告。
image.png

3)网络诊断—> 支持丢包诊断功能,具备实例级别的诊断能力,并能够生成相应的诊断报告。
image.png

查看报告,一切正常。
image.png

4)调度诊断—>支持调度抖动诊断功能,具备实例级别的支持,能够在特定时长及抖动阈值下进行诊断。
image.png

查看报告。
image.png

5)场景诊断—>宕机诊断
image.png

查看报告,无宕机。
image.png

3、系统观测

1)进程热点追踪,用于单个实例在特定时刻的热点分析,支持生成进程热点时序图。

使用场景

  • 业务应用性能波动的场景。
  • 进程竞争,出现系统资源抢占。
  • 系统自身原因:
    1)在特定时刻,停止对高活跃度(热点)函数进行拦截或监控的钩子机制未能正常运作。
    2)—当系统内存紧张时,为了保证当前活跃程序的运行,操作系统频繁地进行换页操作。
    3)访问资源开销较大的sys接口、proc接口等。

image.png

函数表
image.png

图表结合
image.png

热点火焰图
image.png

调用图谱
image.png

支持检索
image.png

2)热点对比分析,用于单个实例在不同时刻、不同实例在同一或不同时刻进行热点对比分析。支持生成进程热点时序图、热点火焰图及调用图谱。

这里对比了单个实例在不同时刻的热点对比分析。给出了分析结论,这里有一键优化就好了,或者优化建议给具体的指导步骤或参考链接。
image.png

函数热点火焰图。
image.png

3)AI Infra观测,用于0侵入、灵活、低开销地观测AI作业。试了下没有GPU分析失败。

image.png

4、系统管理

系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。
image.png
可以查看实例系统状态及诊断信息。

image.png

5、组件管理

组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作。
image.png

image.png

查看组件详情。
image.png

卸载与更新。
image.png

6、订阅管理

订阅管理是操作系统所提供的相关服务的订阅功能。在订阅管理中,用户可以通过创建订阅来使用相应服务,并通过订阅历史记录查看详细信息。
Alibaba Cloud Linux 2延保和CentOS 7安全更新订阅使用。
image.png

7、OS Copilot 对话机器人

在页面右上角召唤出 OS Copilot 对话机器人。
image.png

问下它 AI Infra观察如何使用?

image.png

解释倒是正确,就是给的参考链接不对。
image.png

系统的内存占用过大了,应该怎么优化?
image.png

四、总结与建议

本次测评的操作系统服务套件以AI为核心引擎,提供了一站式的免费操作系统服务。该套件功能丰富且实用,界面设计简洁明了,操作便捷,用户体验良好。智能助手OS Copilot的加入更是为该系统增添了亮点,大大提高了工作效率。

下面是针对本次测试的一些问题和建议:

1、饱和度、延迟、负载、错误这四个指标如何来计算集群健康分的,有没有详细的说明文档。
image.png

2、这里的健康度和云服务诊断的健康状态,两者底层计算是一样的吗?若不同,哪个更有参考价值一点。

image.png

3、诊断都是近实时的,如何诊断历史时间的问题。比如某个过去的时间段有故障。

image.png

4、官方文档中没有及时更新,比如AI Infra观测、场景诊断都没有介绍。
image.png
image.png

image.png

5、希望生成的报告可以支持导出以及批量导出。

image.png
image.png

6、系统诊断中是否可以做一键诊断,把五类诊断都涵盖在里面。这样就不用自己每个都要执行一遍。
image.png

类似于云服务诊断里的一键诊断。
image.png

7、系统观测中的分析结果,有一键优化就好了,或者优化建议能给具体的指导步骤或参考链接。

image.png

8、系统管理是分地域的,若有好几个不同的地域ECS,无法在同一界面展示,这是是否能做成不分区域的。
image.png

9、希望和云监控中的报警规则联动,一旦节点处于不健康或者亚健康可以查看告警通知到管理员。
image.png

10、没有看到如何具体使用API、SDK、CLI等管理
image.png

整体来说,操作系统管理平台对于运维大量的ECS资源会提供很大的帮助,拥有了全局的视角,况且还是免费的。推荐更多的人来体验下,直达链接大模型时代的操作系统管理平台)。

相关文章
|
9月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
2581 2
|
11月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
11月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
1477 3
大模型+安全,阿里云发布AI云盾系列产品!
|
10月前
|
传感器 边缘计算 人工智能
2025大模型应用平台选型指南:从个人助手到企业级智能体,5大平台场景化拆解
本文深度评测五大主流大模型平台,结合金融、医疗、制造实战案例,解析Open WebUI、Dify、Ragflow、FastGPT与n8n的定位与优势,提供选型决策树与混合架构实例,助你精准匹配业务需求,避开“全能平台”陷阱,实现高效智能化落地。
|
11月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
9月前
|
人工智能 数据挖掘 数据库
通义灵码产品演示: 数据库设计与数据分析
本演示展示如何使用通义灵码进行数据库设计与数据分析。通过SQLite构建电商订单表,利用AI生成表结构、插入样本数据,并完成多维度数据分析及可视化图表展示,体现AI在数据库操作中的高效能力。
749 8
|
9月前
|
存储 人工智能 监控
如何用RAG增强的动态能力与大模型结合打造企业AI产品?
客户的问题往往涉及最新的政策变化、复杂的业务规则,数据量越来越多,而大模型对这些私有知识和上下文信息的理解总是差强人意。
211 2
|
9月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
2218 3
|
8月前
|
存储 人工智能 搜索推荐
拔俗AI大模型教学平台:开启智能教育新时代
在AI与教育深度融合背景下,本文基于阿里云技术构建大模型教学平台,破解个性化不足、反馈滞后等难题。通过“大模型+知识图谱+场景应用”三层架构,实现智能答疑、精准学情分析与个性化学习路径推荐,助力教学质量与效率双提升,推动教育智能化升级。
972 0

热门文章

最新文章

推荐镜像

更多