运维服务器信息收集

简介: 运维服务器信息收集; 作为一个运维,我们新服务器上架时有很多头疼的事。其中数据收集在我看来就是一个比较恶心的事。以下来讨论一下数据收集方面我的一此想法和做法,欢迎板砖^_^ 一.供货商的“特殊服务” 供 货商通常是选定不变的,而他们为了“讨好”我们会使更种手段。

运维服务器信息收集;


作为一个运维,我们新服务器上架时有很多头疼的事。其中数据收集在我看来就是一个比较恶心的事。以下来讨论一下数据收集方面我的一此想法和做法,欢迎板砖^_^
一.供货商的“特殊服务”
供 货商通常是选定不变的,而他们为了“讨好”我们会使更种手段。送钱送物也很常见(不过本人还是强烈不建议您收=.=)。不过这是我们利用他们的一个比较重 要的方法。让他们帮我们做一些事情。他们就算再头疼,为了下次合作也会帮我们完成,不管他们心里如何问候我们的祖辈。我们简化了操作,这点很重要。
(下以dell 服务器为例,我们用的80% 是dell.)
1.       提供管理卡IP对应服务器。
我 们服务器选型的时候总会考虑机器应用,这里需要提前对远程管理卡(下称rac卡)的IP进行归化。(当然就需要网络环境完善的情况下,我的意思是需要已经 对IP资源有了完整的规划)。之后,我们就把相应服务器和与之相对应的rac卡管理IP一一对应,生成一个电子文档,然后打印出来交给他们。最好将相应服 务器的标签也给他们。不管是打号机,还是口曲纸。让他们帮忙贴上。最后给他们打印出来。格式示例如下
机器编号|外网IP|内网IP|管理卡IP|磁盘配置|机器型号配置|应用|服务编码
其中 机器型号配置,磁盘配置,和管理卡IP是必须要有的
2.       贴签 + rac配置 + raid配置
让供货量出人配置rac 卡IP,配置raid ,帮你贴签。
这里需要强调一点,如果是同群集的服务器,最好不要放在一个机架上。万一某个机架出了问题你会哭的很惨。
等着他们把活干完,你去验收就行了。
3.       验收
选择一台中控机。(需要所有机器的网线已插)能过这台机器对其它机器进行管理。然后扫下22号吧。确认给他们的IP已经都打开了22端口。脚本如下(需要指定IP段)
#!/bin/bash
# Made by leary
IP=”192.168.10.50-150″
PORT=”22″
paste_line(){
nmap $IP -p $PORT -n |grep -Ev “Nmap finished|Starting Nmap”|\
while read line ;do
         if [ "$line" == "" ];then
                   printf “\n”
         else
                   printf “$-s”,”$line”
         fi
done
}
paste_line |awk ‘{print $4″ “$7}’|sed ‘s/:hBs,PORT//g’

二.MAC地址的收集
通过远程管理卡ssh 命令行管理取出。需要使用expect。用于输入密码。如果想避开ssh yes/no的问题。可以修改/etc/ssh/ssh_config 将StrictHostKeyChecking ask 改成StrictHostKeyChecking no
Expexct 脚本示例
#!/usr/bin/expect -f
spawn ssh 192.168.31.69 “racadm getsysinfo -s”
expect “*password:”
send “calvin\r”
expect eof
通过循环取出NIC1的MAC地址。(比如将结果重定向到 /tmp/leary_mac ,然后使用grep过滤)列表格式就随意了。主要为是了DHCP配置文件的添加。其它的信息也可以能过这种方法取得。只要rac卡里有。比如dell的快速服务器编码等等
统计好的信息可以通过API录入运维管理系统。总之就是日常的那个服务器记录的位置。
现在我们已经把管理系统中的主机信息完全完成了。接下的来工作就简单了。
三.Dhcp 配置文件生成。
为了快速的安装系统,通常我们都会使用网络安装。有了收集回来了mac地址,这个工作就简化了很多.网络安装不是本人重点,这里不再赘述。需要强调的是:所以的dhcp必须是基于mac地址的分发。比如
host host20 {
        hardware ethernet  xx:xx:xx:xx:xx:xx;
        fixed-address 192.168.30.20;
        filename “pxelinux.0″;
   }
四.Bios 修改启动顺序
Dell的默认启动顺序是从网络启动。这样虽然能安装系统。但安装系统如果重启,并且未关闭自动安装服务器的话,服务器会被重新安装。解决方法:仍然是通过dell rac卡的命令行模式
Expect脚本如下
#!/usr/bin/expect -f
spawn ssh 192.168.31.249
expect “*password:”
send “calvin\r”
expect “*admin1->”
send “start /system1\r”
expect “*admin1->”
send “racadm config -g cfgServerInfo -o cfgSErverFirstBootDevice \”HDD\”\r”
expect “*admin1->”
send “racadm config -g cfgServerInfo -o cfgServerBootOnce \”0\”\r”
expect “*admin1->”
send “reset /system1\r”
expect “*admin1->”
send “exit\r”
expect eof
说明:
racadm config -g cfgServerInfo -o cfgSErverFirstBootDevice “HDD” 实现从硬盘启动
racadm config -g cfgServerInfo -o cfgServerBootOnce “0″ 实现永久修改
reset /systerm1 为重启服务器
五.网络安装
不管使用什么方案。Kickstart 、FAI 等等 配置好相应的配置文件。定制的话可以通过完成安装是的自动执行脚本修改。比如配置IP等等。或者不使用pxe启动的默认配置。将其改为相应mac。方法不再此详述。
脚本示例
#!/usr/bin/expect -f
spawn ssh 192.168.31.238
expect “*password:”
send “calvin\r”
expect “*admin1->”
send “start /system1\r”
expect “*admin1->”
send “racadm config -g cfgServerInfo -o cfgSErverFirstBootDevice \”PXE\”\r”
expect “*admin1->”
send “racadm config -g cfgServerInfo -o cfgServerBootOnce \”1\”\r”
expect “*admin1->”
send “reset /system1\r”
expect “*admin1->”
send “exit\r”
expect eof
脚本说明
racadm config -g cfgServerInfo -o cfgSErverFirstBootDevice “HDD” 实现从网络启动
racadm config -g cfgServerInfo -o cfgServerBootOnce “0″ 实现临时修改
start /system1 给服务器加电
注:通过测试,rac默认是临时修改
六.Server端的流量
我测试过50台机器并发通过FAI安装debian,流量大概在120M 左右。按此值估计并发200台机器肯定是没问题的。
七.通用脚本
此脚本的主要功能要实现,通过dhcp获得的IP,或者cfg里配置指定的IP,总之就是当前的内网IP修改本地ip配置文件,并配置外网IP。部署环境也可以在此脚本中实现。如果有运维管理系统的客户端,也可以在此脚本中定义安装。但前提是要基于IP判断。
八.最后的挣扎
最后再检查一次配置的内外网IP通不通,ssh端口,iptables规则,等等相应服务。
总会有网线插错,磁盘损坏,raid配错,等情况等着你,但应该是很小的一部分了。
一次大规模的服务器上线也就是这点事了。

目录
相关文章
|
2月前
|
存储 监控 Devops
|
运维 监控 安全
多监控系统产生的告警如何高效管理-运维事件中心
阿里云运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,帮助企业完成数字化管理。
677 0
多监控系统产生的告警如何高效管理-运维事件中心
|
数据采集 JavaScript 应用服务中间件
网站流量日志埋点收集--系统部署架构图和采集流程梳理|学习笔记
快速学习网站流量日志埋点收集--系统部署架构图和采集流程梳理
277 0
网站流量日志埋点收集--系统部署架构图和采集流程梳理|学习笔记
|
运维 监控 算法
如何建立高效告警体系提升日常运维效|学习笔记
快速学习如何建立高效告警体系提升日常运维效。
293 0
如何建立高效告警体系提升日常运维效|学习笔记
|
存储 数据采集 运维
运维告警方式有哪些?- 华汇数据
DCOM监控平台涵盖了网络、服务器硬件、虚拟化平台、操作系统、数据库、WEB服务器和中间件等各种IT基础设施的监控,除了对IT资源内部组件的可用和性能进行监控外,还通过主动模拟方式对资源提供的服务能力进行直接监控,并且还可以对IT资源的各种运行日志进行采集和分析,使监控真正做到不留死角。
302 0
运维告警方式有哪些?- 华汇数据
|
监控 前端开发 BI
打造立体化监控体系的最佳实践——分布式调用跟踪和监控实践
本文将从分布式系统调用的复杂现状说起,具体分析调用链的三大使用场景,以及调用链的最佳实践,简述如何将调用链作为排查问题的核心,通过其可以将各类数据关联在一起,提高问题排查能力。
16033 0
浅谈利用元数管理平台自动化管理指标的方法
本文讲的是浅谈利用元数管理平台自动化管理指标的方法,指标直接反映企业的生产运营状况,为企业决策提供数据支撑。
2095 0