操作系统控制台 | 让运维也可以点点点

简介: 操作系统控制台是一款强大的运维管理工具,旨在简化Linux系统的管理和监控。它提供了系统概览、系统诊断、系统观测、系统管理、订阅管理等功能,通过可视化页面降低使用复杂度,帮助用户高效分析和解决问题。

前言

说起系统运维,对于大多数的运维人员来说,可能展现在脑海中的还是黑色的背景框,一行一行的命令行执行这样的场景,比如你想要查询系统信息,或者你想要查看磁盘信息,或者是cpu信息,你需要通过手工输入命令的方式来实现具体的操作,就像这样

image.png

这样的命令行操作形式对于运维人员的要求是比较高的,需要运维人员精通Linux命令,同时可以看到命令执行后的返回内容。但是随着AI 人工智能技术的飞速发展,操作系统智能助手OS Copilot 惊艳亮相。操作系统智能助手OS Copilot 融合了大语言模型对自然语言的天然高效理解能力,并借助操作系统团队的深厚历史经验进行精细调整。它提供自然语言问答、辅助命令执行、系统运维调优等多重功能,旨在为Linux用户在学习和运维等多个领域带来专业、高效且智能的全新体验。简单的说就是你可以通过自然语言问答的形式 来对Linux操作系统进行命令行的日常使用和维护等操作,也就是说即便你没有精通 Linux 命令,你也可以操作系统,进行运维操作了。操作的结果就像这样

具体的操作感兴趣的小伙伴可以参考我的另一篇测评:https://developer.aliyun.com/article/1650293  里面有详细的操作记录可以参考。

看到这里是不是觉得 操作系统智能助手OS Copilot 已经很牛气了,不不不,还有更牛气的。【操作系统控制台】,一款可以通过可视化页面管理操作系统,降低使用复杂度的一款运维神器。

操作系统控制台

在详细介绍操作系统控制台操作之前,先来了解一下什么是操作系统控制台?

操作系统控制台提供了操作系统相关的管理功能,包括系统概览、系统诊断、系统观测、系统管理、组件管理、订阅管理、OS Copilot等功能特性,通过可视化页面管理操作系统,降低使用复杂度;同时通过可视化页面进行操作,可有效分析问题,无需依赖众多工具;另外可替代操作系统专业人员,分析问题并提供专业指导意见。关于操作系统控制台的更多详细内容可以参考官方文档:https://help.aliyun.com/zh/alinux/product-overview/what-is-the-operating-system-console

开通服务

如果你还没有开通操作系统控制台服务,那么你需要先开通服务,登录操作系统控制台:https://alinux.console.aliyun.com/ 勾选协议点击【开通服务】

1.png

如果你的账号还没有授权,那么会弹出弹框 【SysOM】服务关联角色,点击【创建角色】完成服务授权。

2.png

操作系统控制台服务开通成功之后,需要先安装组件。

组件管理

组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作,在操作系统控制台首页点击【组件管理】选择安装 组件 SysOM 和 AI组件 OS Copilot

image.png

这里需要说明一下:在安装组件之前,需要你先拥有云服务器ECS实例,如果没有对应的云服务器ECS实例的话,你需要先购买云服务器ECS实例之后再来安装组件,没有云服务器ECS实例的安装页面如下

image.png

另外还需要提醒一下:对于云服务器ECS实例的镜像需要为Alibaba Cloud Linux、CentOS、Ubuntu或Anolis OS中的操作系统的特定版本,具体的版本支持信息可以查看文档https://help.aliyun.com/zh/alinux/getting-started/using-the-operating-system-console

image.png

再回到安装组件的页面,点击 SysOM 的安装,在安装执行页面选择我们需要管理的云服务器ECS实例,点击【执行】等待SysOM组件 安装成功

image.png

等待 SysOM 组件安装成功后,可以看到如下弹框提示

image.png

同样的操作方法完成 OS Copilot  组件的安装,安装成功后回到【组件管理】菜单页,可以看到组件安装信息

image.png

系统概览

系统概览展示被纳管的集群、实例的健康状态,及相关的异常。我们可以在系统概览页面看到我们集群(当前主账号)的实时健康分及资源数据

image.png

下拉也可以看到我们集群的历史健康详情信息,你可以通过时间选择器选择对应的时间,历史健康详情框中展示集群历史(过往某段时间)的健康及异常情况。同时通过异常事件分析面板展示了所有影响集群/实例健康状况的异常检查项。 image.png

如果有异常信息,可以通过操作列表中单击【查看诊断报告】按钮查看报告

TOP 10节点健康列表面板展示了集群中按照健康评分从低到高排序的最低评分的10个实例信息。单击操作列的【节点健康】,将跳转至相应实例的健康度页面。

image.png

健康分趋势可以通过时间选择器显示的时间区间,查看总体健康分及四种类型指标健康分的历史情况,从而有效定位集群中历史发生的健康问题。

image.png

系统诊断

系统诊断是针对系统问题进行的诊断功能,涵盖内存、存储、网络、调度等多种诊断类型。我们可以通过发起相关的系统诊断,获取诊断报告,以说明是否存在相应类别的问题以及问题的原因。点击【系统诊断】菜单,在系统诊断页面选择【诊断类型】、【诊断项】、【实例ID】后点击【执行诊断】等待云服务器ECS【内存全景分析】诊断结果

image.png

同样的方法,你也可以切换【诊断类型】、【诊断项】来获取不同诊断内容的返回结果

image.png

等待诊断结束之后,可以点击操作列的【查看报告】查看当前诊断云服务器ECS的内存相关信息,在报告顶部会给出一个【诊断结论】以及诊断后有问题的话会有一个【诊断建议】

image.png

下滑可以看到具体的内存占用分析

image.png

以及 应用内存使用排序 ,这里可以分页查询,通过切换分页按钮来查询每页内容,目前不支持任务名称搜索功能

image.png

继续往下可以看到 文件缓存占用排序 ,同样支持分页查询不同文件的文件缓存占用情况,暂时不支持文件名称搜索

image.png

OS Copilot

前面我们提到操作系统助手 OS Copilot ,那么在操作系统控制台,我们同样是可以使用 OS Copilot 的,前提是你在组件管理操作步骤里面安装了 OS Copilot 组件哦。在操作系统控制台,点击右侧箭头【<】

image.png

在展开的右边侧边栏选择 OS Copilot

image.png

OS Copilot 对话框页面选择默认的问题 【OS Copilot能为我做什么?】

image.png

再来个应用系统可能会遇到的OOM 相关问题 【应用系统的内存占用过大了,出现了OOM,应该怎么优化?】询问 OS Copilot ,这里 OS Copilot  会根据提出的问题提出具体的优化方案,你可以根据具体的场景选择不同的方案,

image.png

image.png

同时,在问题结束页面还给出了专业诊断工具页面的跳转链接,点击【OOM诊断】链接则会跳转到我们的操作系统控制台【系统诊断】页面,同时已经补充了具体的 【诊断类型】、【诊断项】,但是这里需要注意的是,默认是【杭州】地域,而我通过操作系统控制台管理的是【北京】地域的云服务器ECS,因此需要切换地域,选择实例ID,诊断时间

image.png

考虑到 OS Copilot  针对我提出的应用系统OOM如何优化的建议比较中肯,这里点个小赞鼓励鼓励,也算为操作系统智能助手 OS Copilot 给个肯定。

系统观测

系统观测支持以下三种场景,不同的场景对应不同的功能。

进程热点追踪用于单个节点在某一时段的热点分析,并生成进程的调用图谱,帮助开发人员快速识别应用程序中的性能瓶颈和热点问题。

image.png

热点对比分析,在应用性能波动等因素导致系统指标异常的情况下,通过热点对比时序图和差分火焰图的方式,协助用户识别实例中相同或不同进程在时间维度上的热点差异。

image.png

AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。

image.png

系统管理

系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。仅纳管的实例才能使用操作系统控制台的相关功能。在系统管理页面可以看到我们已经纳入操作系统控制台管理的实例

image.png

订阅管理

订阅是指在阿里云ECS实例上访问阿里云私有yum仓库的权限。通过订阅管理功能,你可以查看ECS实例当前的订阅状态,并根据业务需求为ECS实例创建订阅项,从而获取访问私有yum仓库的权限。在【订阅管理】页面点击【创建订阅】

image.png

在购买ECS实例时,镜像版本不为CentOS 7.9系列,创建订阅时实例列表将不显示。这里由于我的云服务器ECS的操作系统是 Alibaba Cloud Linux 3.2104 LTS 64位  因此需要更换操作系统,在云服务器ECS控制台,点击实例ID 进入实例详情,点击操作系统后的【更换】

image.png

在更换操作系统之前需要先停止云服务器ECS实例,勾选协议,点击【继续更换操作系统】

image.png

在更换操作系统页面选择 CentOS 7.9系列,设置服务器自定义密码后,勾选协议,点击【确认订单】

image.png

等待云服务器ECS 操作系统更改成功之后,回到操作系统控制台 的【订阅管理】,点击【创建订阅】在创建订阅页面就可以看到我们的云服务器ECS了

image.png

勾选云服务器ECS实例后点击【下一步】,勾选服务协议,点击【创建】完成订阅的创建

image.png

完成订阅创建之后,即可使用 yum/dnf 命令访问对应的 yum 仓库,通过命令查看已添加的 yum 仓库

yum repolist

查看结果如图

image.png

订阅完成后,系统并不会自动进行漏洞修复和软件包更新,这些操作需要您手动完成。比如运行以下命令,查询当前全部可用的安全更新信息

yum updateinfo

image.png

运行以下命令,查询当前可用的安全更新列表

yum updateinfo list

image.png

运行以下命令,查询指定安全更新的内容

yum updateinfo info ANSA-2024:0905

image.png

运行以下命令,指定安全更新级别进行查询

yum updateinfo list --sec-severity=Moderate


image.png

关于yum更多的安全更新操作可以 参见基于YUM的安全更新操作

到这里,关于操作系统控制台的全部功能我都已经带大家体验一遍了,后面有需要的可以直接参考我的文章操作即可,操作不复杂,功能设计也比较容易理解,非运维人员一样可以看明白。

体验总结

我是一位 -开发工程师-,我平时工作 涉及 云资源的运维和管理。我使用的是 CentOS 7 系列 操作系统。

顺利使用了 操作系统控制台 的 基本上全部 功能,

我认为系统概览 功能 有用 ,可以很直观的看到当前云服务器ECS的状态,解决了 只能通过命令行来查看 ECS 状态的问题,大大提升了运维人员关注云服务器ECS 状态的时间投入,过去需要登录服务器,通过命令来查看,现在只需要一眼即可

image.png

我认为 系统诊断 功能 有用 ,可以直接在可视化页面实时诊断云服务器ECS的详细状态,通过切换具体的诊断类型,以及诊断项等内容,快速获取关注的状态,在诊断列表也可以通过【查看报告】看到具体的【诊断结论】及【诊断建议】方便运维人员快速处理

image.png

目前对EOL的操作系统比较担心,希望订阅功能能够帮我及时的获取系统更新信息,从而保证系统的稳定运行。

此外,我还有一些建议,下面具体说说。

入口在哪儿?

在测评操作过程中,一直是通过操作系统控制台的文档中的入口链接进入的,而实际在使用云服务器ECS资源或者其他云产品资源时,往往更习惯通过控制台首页【搜索】功能来搜索具体的云产品进入控制台,比如 ECS

image.png

而目前通过控制台首页【搜索】操作系统控制台 则没办法找到 操作系统控制台 的入口,只能通过点击下面搜索到的帮助文档里面的跳转链接点进去

image.png

组件待补充

对于目前的操作系统控制台来说,组件只有两个可以选择,那么后期可以适当考虑增加监测云服务器ECS上部署的应用程序服务的组件,比如通过安装应用检测组件,可以检测到服务器ECS里面具体的应用程序(tomcat、nginx、mysql、redis 等)服务的状态展示在系统概览页面,方面可视化的检测应用程序的状态。目前的操作系统控制台的相关系统概览、系统诊断等主要是关注的云产品自身状态,而没有云产品上应用程序的状态信息

image.png

系统观测-热点类型?

在进行系统观测 进程热点追踪、热点对比分析时会有一个【热点类型】为必选项,但是这里并没有 热点类型 的配置页面,那么这个热点究竟是怎么来的,有时候没有,就像这样

image.png

有时候会有,可选项为【ONCPU】,就像下图的可选项地方,这就比较疑惑,不知道这个【热点类型】具体指什么


另外在官方文档中,关于【热点类型】并没有提及,并且官方文档截图中也没有【热点类型】这个选项

image.png

热点对比分析也是同样的道理,【热点类型】为必选项,但是却不知到值从何来,昨天在体验过程中有的一个热点类型【ONCPU】的值甚至不知道怎么来的

image.png

订阅管理

对于订阅管理,我理解是主要为了 对EOL的操作系统 进行一个使用,那么这里就希望在【订阅管理】菜单,或者是在【创建订阅】的页面展示一个说明

image.png

我第一次纳入管理的是一个操作系统为 Alibaba Cloud Linux 3.2104 LTS 64位 的云服务器ECS,在创建订阅时一直没有加载,后来查阅文档才发现只对EOL的操作系统 可以使用

image.png

在订阅管理的文档中提到系统不会自动进行漏洞修复和软件包更新,需要手动完成,那么这个订阅管理具体是提供了什么服务?并没有一个系统yum 更新的通知提醒功能,也没有一个系统更新后的自动更新功能,那么这个【订阅管理】究竟是订阅了什么,比较不理解。或者说是否有一个邮件提醒功能,当 yum 更新时,自动发送给主账户一个 邮件,列出来 yum 更新哪些内容等,就更好了。

image.png

最后,还是很感谢开发团队的不断探索,使得过去只能专业运维人员操作的服务器,非专业人员也可以通过 OS Copilot 自主化关注服务器相关参数了。操作系统控制台的出现,进一步提供了一个可视化运维服务器的操作界面,真的实现了运维人员点点点就能管理服务器的理想,方便快捷,给操作系统控制台开发团队一个大大的赞,你们的探索---值得!

附上 控制台直达链接:https://alinux.console.aliyun.com/

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
4月前
|
运维 监控 算法
小白也能做OS运维:阿里云操作系统控制台助你轻松解决三大运维难题
阿里云推出了一站式运维管理平台操作系统控制台,提出了异常告警和诊断联动的一套解决方案,对异常指标进行智能检测
|
4月前
|
弹性计算 运维 Kubernetes
看阿里云操作系统控制台如何一招擒拿网络丢包
阿里云操作系统控制台帮忙客户快速定位问题,不仅成功完成业务部署并实现稳定运行,更有效遏制了持续性成本消耗。
|
4月前
|
运维 监控 算法
小白也能做 OS 运维:阿里云操作系统控制台助你轻松解决三大运维难题
为应对问题定界浪费大量人力、问题定位时间长、问题现场丢失等运维难题,阿里云推出了一站式运维管理平台操作系统控制台,提出了异常告警和诊断联动的一套解决方案,对异常指标进行智能检测。
|
6月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
7月前
|
缓存 运维 前端开发
|
7月前
|
缓存 运维 前端开发
阿里云操作系统控制台:高效解决性能瓶颈与抖动之进程热点追踪
遇到“进程性能瓶颈导致业务异常”等多项业务痛点时,提供高效解决方案,并展示案例。
|
6月前
|
运维 监控 算法
这几类运维难题,看阿里云操作系统控制台如何一站式破解
阿里云操作系统控制台给云计算和容器化运维带来新的可能,能够提高系统性能与运维效率,同时为企业减少了系统相关问题带来的困扰。
|
7月前
|
数据采集 人工智能 运维
深度探讨操作系统运维、软件选型等社区标准,龙蜥标准化 SIG MeetUp 圆满举办
围绕软件选型、操作系统运维、RISC-V 三个方向的社区标准进行了分享与讨论。
深度探讨操作系统运维、软件选型等社区标准,龙蜥标准化 SIG MeetUp 圆满举办
|
7月前
|
弹性计算 运维 监控
【阿里云】操作系统控制台——体验与测评
阿里云操作系统控制台是一款强大的综合管理平台,集健康评估、智能诊断与性能优化于一体。通过可视化界面,用户可便捷高效地管理操作系统,降低运维复杂度。它支持弹性云服务器(ECS)的监控与调优,提供进程热点追踪、系统诊断等功能,帮助用户快速定位问题并给出优化建议。此外,控制台还具备地域限制和组件安装要求,需确保配置一致性。对于中小企业和技术新手,这款工具极大简化了运维流程,提升了资源利用率和系统稳定性。建议增加报告导出功能及内嵌智能助手,进一步优化用户体验。总结来说,该控制台如同“云服务器管家”,让运维更简单、业务更稳定。
|
8月前
|
运维
云产品评测|用操作系统控制台,让运维更简单 获奖名单公布!
云产品评测|用操作系统控制台,让运维更简单 获奖名单公布!
175 3

热门文章

最新文章

推荐镜像

更多