摆脱繁琐命令-让运维更加流畅-阿里云ECS操作系统控制台运维篇

简介: 阿里云操作系统控制台提供了便捷的服务器监控与管理功能,简化了运维工作。通过将多台服务器纳入统一监控平台,用户可以快速查看CPU、内存、磁盘和网络等关键资源的使用情况,避免了逐一远程连接查询的繁琐操作。此外,该工具支持自动化数据汇总,极大地方便了日报、周报和月报的编写。测试过程中,系统展示了良好的稳定性和响应速度,尤其在网络抖动和大文件健康状态测试中表现出色。整体体验流畅,显著提升了运维效率。操作系统控制台地址:[点击访问](https://alinux.console.aliyun.com/)

快速文档地址:点击快速访问官方帮助文档

操作系统控制台地址:https://alinux.console.aliyun.com/

image-20250309233412830

引言

运维与实施过程中最麻烦的不是时时看着服务器的运行状态,而是每天晚上的日报,每周的周报,还有月报,我带的毕业生们有很多学生是做运维与实施工作的,自己的脚本也都比较全,有了新的好用的脚本我也会分享给学生们,不过这些东西在工作的时候好用,写日报的时候全部服务都连接再查询一下就会非常的麻烦了,有了阿里的操作系统控制台这个服务就大大的方便了数据的监控与汇总,写这类东西就会方便很多,给平时的工作也带来了很多的遍历。

image-20250309235112604

使用与感受

下面是我整个的测试使用过程与最终的使用感受。

1、所遇问题说明

痛点说明

我这里有华北2的四台服务器,好几类服务,如果是使用命令来挨个查询健康状态的话就需要逐一的进行远程连接或者xShell连接后再执行命令,远程连接现在有了一个AI命令助手到时很方便,可以直接询问命令,但是长时间用的命令很熟悉,就是运行的过程比较麻烦。

image-20250308115909098

痛点解决

正好操作系统控制台就解决了这个问题,可以将服务器都添加到系统控制台的监控当中。

image-20250308120341247

2、实际操作

这里是整个实际操作的部分。

2.1 添加系统监控管理

我们需要先将需要监控的服务都防止在操作系统控制台的纳管范围内,下图是操作步骤1。

image-20250308120432138

需要点击安装SysOM将未纳管的服务添加到纳管范围,下图是操作步骤2。

image-20250308120846558

安装过程中需要稍事等待,具体效果如下图:

image-20250308121011565

执行安装成功效果:

image-20250308121044794

添加成功效果:

image-20250308121134339

我们可以看到已经将对应的服务器添加到纳管范围内了,这里需要明确一点,当前支持的系统在官方文档中有说明:

本功能目前仅支持中国内地与中国香港。

架构 操作系统
x86架构 Alibaba Cloud Linux 2/3CentOS 7.6及以上版本Anolis OS 8.4以上版本
ARM架构 Alibaba Cloud Linux 3

当前集群中关键资源的使用情况:

CPU:集群CPU使用情况。

内存:集群内存使用情况。

磁盘:集群根文件系统使用情况。

网络:集群中所有网络上行及下行速率之和。

image-20250308121349672

2.2 大文件健康状态测试

这里我写了一套增加文件的代码,可以每分钟添加1GB数据,用于磁盘测试。

import os
import time
from datetime import datetime

def create_file(size_mb, file_number):
    # 计算文件大小(1GB = 1024*1024*1024 bytes)
    size_bytes = size_mb * 1024 * 1024 * 1024

    # 生成当前时间戳
    timestamp = datetime.now().strftime("%H%M%S")

    # 创建文件名
    filename = f"test_file_{timestamp}_{file_number}.dat"

    try:
        # 写入文件
        with open(filename, 'wb') as f:
            # 每次写入1GB数据
            mb_data = b'0' * 1024 * 1024 * 1024
            mb_written = 0

            while mb_written < size_mb:
                f.write(mb_data)
                mb_written += 1

        print(f"已创建文件: {filename} ({size_mb}GB)")

    except Exception as e:
        print(f"创建文件时出错: {e}")

def main():
    # 设置参数
    files_per_minute = 1  # 每分钟创建的文件数
    file_size = 50       # 每个文件大小(GB)
    total_minutes = 5    # 总运行时间(分钟)

    print("开始创建文件...")

    # 记录开始时间
    start_time = time.time()
    file_count = 0

    # 主循环
    while (time.time() - start_time) < (total_minutes * 60):
        # 创建文件
        create_file(file_size, file_count)
        file_count += 1

        # 计算已运行时间
        elapsed_minutes = (time.time() - start_time) / 60
        print(f"已运行: {elapsed_minutes:.1f}分钟")

        # 等待到下一分钟
        time.sleep(60 / files_per_minute)

    print(f"\n程序结束")
    print(f"总共创建了 {file_count} 个文件")
    print(f"总数据量: {file_count * file_size}GB")

if __name__ == "__main__":
    main()

当单独查询这个服务器健康状态的时候,可以清晰的看到对应的效果:

image-20250308121810851

多个节点可以看到集群的数据变化:

image-20250308121859783

健康趋势分析图

image-20250308122136727

测试文件数据,看着还是很大的,我这里创建很多50MB的数据和一个大的14.99GB的。

image-20250308124117678

删除后的健康值效果:

image-20250308124219683

健康分析趋势持续变化过程:

image-20250308130253681

2.3 网络测试

这里我测试的是网络抖动,当我对某个接口进行并发访问的时候可以看到对应的返回结果。

image-20250308130934822

我这里使用的是jmter来做的并发访问:

image-20250308131035650

请求的汇总图:

image-20250308131107301

报告详情:

image-20250308131123427

image-20250308142037866

3、使用感受

整体的测试使用下来觉得还是非常的顺畅的,解决了每台服务器都要单独查看状态的繁杂重复性操作,可以快速的给出数据,让运维与实施的时间大幅简短,并且可以在日报、周报、月报中做数据支撑,是非常不错的,如果能在刷新的时间上加上自主性控制就更好了。

总结

CPU、内存、磁盘、网络,四个核心数据,可以综合所有服务共同查看,也可以分开单独查看,这样可以更好的对整体数据进行把控,服务对比的功能也非常的棒,同样的两个服务进行实际的消耗对比,可以看出两台服务器的示例消耗区别,本工具对于实施运维人员的帮助会非常大,可以尽快的来测试一下哦。

另附:OS Copilot实际测评地址:https://developer.aliyun.com/article/1648304

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
3月前
|
安全 Linux Shell
使用SCP命令在CentOS 7上向目标服务器传输文件
以上步骤是在CentOS 7系统上使用SCP命令进行文件传输的基础,操作简洁,易于理解。务必在执行命令前确认好各项参数,尤其是目录路径和文件名,以避免不必要的传输错误。
318 17
|
3月前
|
运维 前端开发 JavaScript
半夜服务器告警不再错过!运维人员必备的语音通知方案
为解决深夜服务器宕机错过告警的问题,本文介绍一款专为个人开发者与运维人员设计的语音通知方案。通过电话直接推送重要告警,确保第一时间响应,避免故障扩大。支持多种编程语言调用,配置简单,3步即可完成,实时性强,适合各类关键业务场景。
270 5
|
4月前
|
Linux 网络安全 数据安全/隐私保护
使用Linux系统的mount命令挂载远程服务器的文件夹。
如此一来,你就完成了一次从你的Linux发车站到远程服务器文件夹的有趣旅行。在这个技术之旅中,你既探索了新地方,也学到了如何桥接不同系统之间的距离。
576 21
|
2月前
|
运维 监控 安全
“没服务器了,那我这运维是白干了吗?”——无服务器架构对运维的冲击与转机
“没服务器了,那我这运维是白干了吗?”——无服务器架构对运维的冲击与转机
62 0
|
3月前
|
运维 Prometheus 监控
“服务器又宕了?”别急,智能运维教你如何未卜先知!
“服务器又宕了?”别急,智能运维教你如何未卜先知!
125 0
|
5月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
6月前
|
JSON API 数据安全/隐私保护
使用curl命令在服务器上执行HTTP请求
总的来说,curl是一个非常强大的工具,它可以让你在命令行中发送各种类型的HTTP请求。通过学习和实践,你可以掌握这个工具,使你的工作更加高效。
446 30
|
5月前
|
运维 监控 算法
这几类运维难题,看阿里云操作系统控制台如何一站式破解
阿里云操作系统控制台给云计算和容器化运维带来新的可能,能够提高系统性能与运维效率,同时为企业减少了系统相关问题带来的困扰。
|
7月前
|
Java 网络安全 Apache
SshClient应用指南:使用org.apache.sshd库在服务器中执行命令。
总结起来,Apache SSHD库是一个强大的工具,甚至可以用于创建你自己的SSH Server。当你需要在服务器中执行命令时,这无疑是非常有用的。希望这个指南能对你有所帮助,并祝你在使用Apache SSHD库中有一个愉快的旅程!
382 29
|
7月前
|
人工智能 运维 数据可视化
玩转云服务器——阿里云操作系统控制台体验测评
在云服务器日益普及的背景下,运维人员对操作系统管理工具的要求不断提高。我们需要一款既能直观展示系统状态,又能智能诊断问题,提供专业指导的控制台。阿里云操作系统管理平台正是基于API、SDK、CLI等多种管理方式,致力于提升操作效率,为用户带来全新的系统运维体验。阿里云操作系统控制台凭借便捷易用的设计和高效的管理功能,成为云服务器运维的强力助手。本次测评基于真实体验截图,对其整体表现进行了深入探索。
275 33

热门文章

最新文章

推荐镜像

更多