效率翻倍!3个自动化脚本(附源码),解决80%日常重复工作

简介: 运维人常被重复操作拖累?分享3个阿里云ECS高频自动化脚本:①批量巡检(CPU/内存/磁盘告警);②日志自动清理(7天+定时执行);③Python批量重启服务(基于阿里云SDK)。均经生产验证,轻量易用、开箱即用,助你释放80%重复劳力!

做运维这么多年,最深的感受就是:日常工作里80%的时间,都耗在了重复且无技术含量的操作上——每天逐台检查ECS状态、手动清理日志、批量重启服务,忙到没时间做核心优化。分享3个自己日常高频使用的自动化脚本,适配阿里云ECS、云服务器等常用环境,复制就能用,帮大家解放双手,把时间花在更有价值的事情上。

所有脚本均经过实际生产环境验证,轻量化不占资源,新手也能快速上手,无需复杂配置,重点解决巡检、日志清理、批量操作三大核心痛点,话不多说,直接上干货+源码。

一、阿里云ECS批量巡检脚本(Shell):一键排查多台服务器状态

日常运维中,服务器巡检是必修课,逐台登录检查CPU、内存、磁盘太耗时,这个脚本可适配阿里云云助手调用,无需手动登录,一键完成多台ECS巡检,异常状态自动记录日志,方便后续追溯。

#!/bin/bash
# 阿里云ECS批量巡检脚本,适配云助手执行
LOG_FILE="/var/log/ecs_check.log"
THRESHOLD=85  # 告警阈值,可根据自身需求调整
log() { echo "($(date '+%Y-%m-%d %H:%M:%S')) $*" >> "$LOG_FILE"; }
# 检查CPU使用率
CPU_USAGE=$(top -bn1 | grep "Cpu(s)" | awk '{print $2}' | cut -d'%' -f1)
[ $CPU_USAGE -gt $THRESHOLD ] && log "WARN CPU使用率超标:${CPU_USAGE}%"
# 检查内存使用率
MEM_USAGE=$(free | grep Mem | awk '{print int($3/$2 * 100)}')
[ $MEM_USAGE -gt $THRESHOLD ] && log "WARN 内存使用率超标:${MEM_USAGE}%"
# 检查磁盘使用率(筛选核心分区)
df -h | grep -E '^/dev/' | while read line; do
USAGE=$(echo $line | awk '{print $5}' | tr -d '%')
[ $USAGE -gt $THRESHOLD ] && log "WARN 磁盘使用率超标:$(echo $line | awk '{print $6}') ${USAGE}%"
done
log "INFO 本次巡检完成,详细日志请查看:$LOG_FILE"
echo "巡检完成,日志路径:$LOG_FILE"

使用说明:替换日志路径和告警阈值,在阿里云云助手添加脚本,选择需要巡检的ECS实例,一键执行即可,无需额外安装依赖。


二、日志清理脚本(Shell):自动清理,避免磁盘占满

阿里云服务器长期运行后,日志文件会不断累积,很容易导致磁盘占满,影响服务正常运行。这个脚本可自动清理指定目录7天前的日志,支持自定义清理目录,配合crontab定时执行,一劳永逸。

#!/bin/bash
# 阿里云服务器日志清理脚本,适配主流Linux系统
# 自定义需要清理的日志目录,可根据自身环境添加
LOG_DIRS=("/var/log/nginx" "/data/logs" "/var/lib/docker/containers" "/var/log/mysql")
KEEP_DAYS=7  # 保留最近7天的日志
# 循环清理每个目录下的日志文件
for dir in "${LOG_DIRS[@]}"; do
    if [ -d "$dir" ]; then
        find "$dir" -name "*.log*" -mtime +$KEEP_DAYS -delete
        echo "已清理 $dir 目录下7天前的日志"
    else
        echo "目录 $dir 不存在,跳过清理"
    fi
done
# 清理系统日志
journalctl --vacuum-time=7d
echo "日志清理完成,系统日志已保留最近7天"

使用说明:添加需要清理的日志目录,执行chmod +x 脚本名.sh赋予权限,再通过crontab设置定时(如每天凌晨2点执行:0 2 * * * /root/log_clean.sh)。


三、阿里云ECS批量重启服务脚本(Python):无需逐台操作

遇到服务异常,需要重启多台ECS上的nginx、mysql等服务时,逐台登录操作太繁琐。这个脚本基于阿里云SDK开发,可批量重启指定ECS上的目标服务,高效又便捷。

#!/usr/bin/env python3
# 阿里云ECS批量重启服务脚本,需提前安装aliyun-python-sdk-ecs
# 安装命令:pip3 install aliyun-python-sdk-ecs
import json
from aliyunsdkcore.client import AcsClient
from aliyunsdkecs.request.v20140526 import RunCommandRequest
# 替换为自己的阿里云AccessKey和地域ID
client = AcsClient("你的AccessKeyId", "你的AccessKeySecret", "cn-hangzhou")
def restart_service(instance_ids, service_name):
    request = RunCommandRequest()
    request.set_accept_format('json')
    request.set_RegionId("cn-hangzhou")  # 替换为你的ECS地域ID
    request.set_InstanceIdss(json.dumps(instance_ids))  # 替换为需要操作的ECS实例ID列表
    request.set_CommandContent(f"systemctl restart {service_name}")  # 替换为需要重启的服务名
    request.set_CommandType("RunShellScript")
    
    try:
        response = client.do_action_with_exception(request)
        return json.loads(response)
    except Exception as e:
        return f"执行失败:{str(e)}"
# 示例:重启2台ECS上的nginx服务
if __name__ == "__main__":
    instance_list = ["i-xxxxxx", "i-xxxxxx"]  # 替换为你的ECS实例ID
    service = "nginx"  # 替换为需要重启的服务(如mysql、redis)
    result = restart_service(instance_list, service)
    print("执行结果:", result)

使用说明:提前安装阿里云Python SDK,替换AccessKey、地域ID、ECS实例ID和服务名,直接运行即可批量重启服务。


以上3个脚本,覆盖了运维日常80%的重复工作,适配阿里云各类服务器环境,亲测稳定好用,新手也能快速上手落地,帮大家节省大量重复劳作的时间。

其实在实际运维工作中,除了手动部署这类轻量化脚本,很多企业也会通过专业运维平台实现更高效的自动化管理,比如我了解到的江苏立维,其自研的OpsEye平台就有成熟的AutoOps自动化能力,内置丰富的运维脚本库,能实现Runbook自动执行,相当于把我们手动编写、部署脚本的流程简化,进一步解放运维人力,尤其适合IT资源较多、运维场景复杂的团队,这也是很多同行提升运维效率的常用方式。

最后提醒一句:脚本使用前,建议先在测试环境验证,避免影响生产服务;根据自身业务需求,调整脚本中的阈值和参数,适配自己的运维场景。

相关文章
|
1天前
|
人工智能 IDE API
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
阿里云百炼Coding Plan是面向开发者和团队的AI编程订阅服务,采用固定月费模式,Pro套餐200元/月提供9万次调用额度,整合千问、Kimi、GLM、MiniMax等顶级模型,全面兼容Claude Code、OpenClaw、Cursor等主流编程工具。额度采用5小时滚动恢复、每周及每月定期重置机制,兼顾开发连续性与成本可控性。其折算成本远低于按量计费,并通过多层级额度设计和华北2地域绑定有效防范欠费风险。适合日常代码生成、智能体开发及IDE插件集成等场景,是开发者以可预期预算拥抱AI编程的高性价比选择。
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
|
人工智能 运维 自然语言处理
智能运维新范式:阿里云网络 AI Ops Skills 赋能企业数字化转型
阿里云推出AI Ops Skills系列工具,以“自然语言即接口”理念革新网络运维:5大智能Skill覆盖故障诊断、EIP管理、全球加速、HTTPS升级和IPsec VPN,支持对话式操作、全流程自动化、安全审计与开箱即用,大幅提升效率、降低门槛、保障合规。(239字)
382 0
智能运维新范式:阿里云网络 AI Ops Skills 赋能企业数字化转型
|
17天前
|
人工智能 自然语言处理 安全
阿里云百炼Token Plan是什么?套餐、API调用、工具配置与优惠活动完整实战手册
阿里云百炼Token Plan以统一Credits计费、多模型自由切换、团队化管理、预算可控、安全隐私为核心优势,为团队与企业提供一站式AI大模型订阅服务。三档套餐覆盖轻度到重度全场景需求,兼容主流编程与智能体工具,开通简单、接入方便、成本透明,配合丰富的新用户优惠、批量折扣、长期订阅福利,是当前团队规模化使用AI服务的高性价比方案。
358 5
|
1月前
|
机器学习/深度学习 搜索推荐 数据处理
PAI-Rec推荐开发平台:企业级智能推荐解决方案,驱动业务全域增长
PAI-Rec是阿里云一站式推荐系统平台,集成多路召回、多目标精排(如DBMTL)、GPU加速推理与灵活迭代能力,已助力电商、直播、音视频等多行业提升点击率、转化率与ROI,实现高效、低成本、可自主演进的智能推荐。
279 16
|
1月前
|
SQL 关系型数据库 MySQL
MySQL IN 里塞 10000 个值?90% 开发者都踩过的坑,底层原理 + 全场景解决方案一次讲透
本文深入剖析MySQL IN子句的底层执行逻辑,纠正常见误区(如“1000值硬限制”“IN=OR”),揭示大IN列表引发的性能、稳定性及安全风险,并提供分批查询、临时表JOIN、关联/EXISTS查询、流式查询四类场景化解决方案,附实测性能对比与生产避坑指南。
288 4
|
1月前
|
人工智能 测试技术
CLI为什么突然爆了?一文讲清 Skill、MCP、CLI 的真实关系
本文解析AI从“能聊天”到“能干活”的关键跃迁,聚焦CLI(命令行接口)、Skill(内嵌能力)与MCP(标准化连接协议)三大执行层技术。厘清三者本质差异与协同关系:Skill解决“懂什么”,MCP解决“怎么接”,CLI解决“怎么做”,揭示企业推动CLI落地的核心动因——让AI真正融入业务、自动执行任务。
|
3天前
|
测试技术 API 数据处理
Claude API 接入方案解析:国内业务落地要关注哪些限制
Claude API 的基础接入并不复杂,但企业落地不能只看 Demo。模型版本、地区限制、网络链路、限流策略和成本治理,都会影响最终稳定性。
130 7
|
23天前
|
人工智能 监控 前端开发
Harness Agent:2026 年 Java AI Agent 开发的终极框架
Harness Agent是2026年专为Java生态打造的AI Agent终极框架,原生Java、深度集成Spring Boot,轻量(仅1MB)、企业级(监控/限流/安全),支持工具调用、记忆管理、多Agent协作等完整能力,学习成本低,开箱即用。
1312 1
Harness Agent:2026 年 Java AI Agent 开发的终极框架
|
3月前
|
应用服务中间件 Shell nginx
最全的docker命令参数解释及命令用法
本文系统详解Docker核心命令,涵盖容器(run/exec/ps/start/stop等)、镜像(pull/build/push/rmi等)、网络、数据卷及全局参数,并配实操示例与可直接执行的命令,助初学者快速掌握Docker日常运维与开发应用。
1505 129
|
11天前
|
人工智能 编解码 API
AI视频生成低至0.9元/秒!阿里云HappyHorse开启灰度测试,150亿参数AI视频模型
阿里云HappyHorse(快乐小马)是阿里巴巴ATH创新事业部研发的150亿参数原生多模态AI视频大模型,全球首个实现音画联合生成的单流架构模型,4月登顶Artificial Analysis双榜。支持文/图生视频、1080P输出、7语种口型同步,最低0.44元/秒,已通过百炼平台、官网及千问App开放灰度测试。