信息化浪潮席卷全球的当下,数字化转型已成为各行各业的核心驱动力,而作为这一进程守护者的运维工作,其重要性与日俱增。面对瞬息万变的IT环境,复杂多元的系统架构,以及日益严苛的服务质量要求,高效的自动化工具与脚本已成为运维人员提升工作效率、确保系统稳定性不可或缺的“秘密武器”。有鉴于此,我倾力编撰了这份精心筛选与整理的Shell脚本合集,旨在为广大的运维同行献上一份诚意满满的“运维人福利”,助您在应对日常运维挑战时如虎添翼,从容不迫。
这份脚本合集,犹如一座蕴藏着丰富矿藏的知识宝库,凝结了我在实战运维工作中积累的点滴智慧与宝贵经验。它深度聚焦服务器监控、故障排查、数据备份与恢复、性能调优、自动化部署等运维核心领域,旨在为每一位身处其中的专业人士提供全方位的支持。无论是初涉运维领域的新人,渴望快速掌握实战技巧,还是久经沙场的资深专家,寻求优化现有流程、提升运维效能的新思路,都能在这份合集中找寻到契合自身需求的解决方案。
每一款脚本均经过真实业务场景的反复打磨与严格测试,秉持着简洁高效、易于理解和使用的理念设计。它们不仅具备高度的灵活性与适应性,能够轻松应对各种复杂运维环境下的多样化需求,而且注释详尽,逻辑清晰,旨在成为您日常工作中随时查阅、快速上手的实用指南。无论是自动化执行例行任务,迅速响应突发事件,还是深入挖掘系统瓶颈,优化资源分配,这些脚本都将化身为您的得力助手,使繁复的运维工作变得有条不紊,事半功倍。
我热忱欢迎所有运维同仁自由取阅、广泛分享这份宝贵的Shell脚本资源,将其融入个人的工作实践中,或是作为团队协作、技能培训的参考资料。它们不仅是提升个人技能、优化工作流程的有效工具,更是增进同行间技术交流、知识共享的优质载体。让我们携手共进,充分运用这份脚本合集所蕴含的技术力量,积极推动运维工作的智能化、自动化进程,共同为构建稳定、高效、可靠的信息化系统保驾护航,为企业的数字化转型之路奠定坚实基础。在这个瞬息万变的数字化时代,让我们以匠心独运的运维智慧,驾驭科技之舟,破浪前行,共创辉煌!
今天我们要分析的是:
一台监控主机,一台被监控主机。被监控主机分区使用率大于80%,就发告警邮件。放到crontab里面,每10分钟执行一次。
#!/bin/bash
FSMAX="80"
remote_user='root'
remote_ip=(IP地址列表)
ip_num='0'
while [ "$ip_num" -le "$(expr ${#remote_ip[@]} -l)"]
do
read_num='1'
ssh "$remote_user"@"${remote_ip[$ip_num]}" df -h > /tmp/diskcheck_tmp
grep '^/dev/*' /tmp/diskcheck_tmp | awk '{print $5}'|sed 's/\%//g' >
/tmp/diskcheck_num_tmp
while [ "$read_num" -le $(wc -l < /tmp/diskcheck_num_tmp) ]
do
size=$(sed -n "$read_num" 'p' /tmp/diskcheck_num_tmp)
if [ "size" -gt "$FSMAX" ]
then
$(grep '^/dev/*' /tmp/diskcheck_tmp |sed -n $read_num'p'
> /tmp/disk_check_mail)
$(echo ${remote_ip[$ip_num]}) >> /tmp/disk_check_mail)
$(mail -s "diskcheck_alert" admin <
/tmp/disk_check_mail)
fi
read_num=$(expr $read_num + 1)
done
ip_num=$(expr $ip_num + 1)
done
脚本结构概览
- 变量定义
FSMAX
: 设定的磁盘使用率阈值(80%)。remote_user
: 登录被监控主机使用的用户名(此处为“root”)。remote_ip
: 存储被监控主机IP地址的数组。ip_num
、read_num
: 分别用于遍历被监控主机IP和磁盘分区信息的计数器。
- 主循环
- 使用
while
循环遍历remote_ip
数组中的每一台被监控主机。 - 对于每台主机,执行磁盘检查并发送告警邮件(若有需要)。
功能详解
磁盘检查
- 远程执行df命令
- 使用
ssh
命令以remote_user
身份登录到当前ip_num
索引对应的被监控主机。 - 执行
df -h
命令获取磁盘使用情况,并将输出保存到本地临时文件/tmp/diskcheck_tmp
。
- 提取分区使用率
- 从
/tmp/diskcheck_tmp
中筛选以/dev/*
开头的行(表示磁盘分区)。 - 使用
awk
提取第五列(使用率),并用sed
去除百分号(%),结果存入/tmp/diskcheck_num_tmp
。
- 逐个比较使用率
- 使用
while
循环遍历/tmp/diskcheck_num_tmp
中的每个使用率值。 - 读取当前行的使用率值到变量
size
。 - 如果
size
大于FSMAX
(阈值),执行告警邮件发送逻辑。
告警邮件发送
- 构建邮件内容
- 从
/tmp/diskcheck_tmp
中提取触发告警的分区信息(对应read_num
行),存入/tmp/disk_check_mail
。 - 将触发告警的被监控主机IP追加到
/tmp/disk_check_mail
中。
- 发送邮件
- 使用
mail
命令,以主题“diskcheck_alert”向邮箱“admin”发送告警邮件,内容来自/tmp/disk_check_mail
。
如何使用
- 配置被监控主机信息
- 在脚本中用括号包围的“IP地址列表”处,填入实际被监控主机的IP地址,形成数组
remote_ip
。
- 测试脚本
- 使用具有
ssh
无密码登录权限的用户运行此脚本,确保能够正确连接到被监控主机并获取磁盘使用情况。
- 设置定时任务
- 将脚本添加到监控主机的
crontab
中,设置为每10分钟执行一次。例如: - Code
1*/10 * * * * /path/to/script.sh
通过以上步骤,该脚本将定期(每10分钟)检查所有被监控主机的磁盘分区使用率。当发现任何分区使用率超过设定阈值(80%)时,会立即向指定邮箱(admin)发送告警邮件,提醒管理员及时关注并处理磁盘空间问题。
如果想上手操作练代码的同学们可以通过阿里云ecs服务器免费试用参与!
入口:新老同学免费试用