网络维护最佳实践
这篇文章介绍了你应该定期做的一些事情(过程),以及你重复做的改进。它还涵盖了一些良好的操作实践。
这里有一个经验教训,它适用于以下几个方面:你可以以受控的方式预先计算时间,每次执行任务时都会增加流程,或者你可以做大致相同的工作。仓促的消防演习,一遍又一遍。
为了控制此文章的大小,我们将重点关注与网络相关的任务。每个技术领域都有自己的。对于服务器和VM,可以想到具有可靠流程的良好备份或克隆,以及良好的备份验证过程。你不希望发现你急需的备份失败并且没有人注意到,或者你所拥有的每个备份都因你未能考虑的事情而损坏。当cryptolocker命中并且备份似乎全部腐败时,你不想成为那个人。
管理定期维护
以下是定期维护任务。如果你不管理它们,它们将无法完成,或者不能定期完成,特别是如果你像大多数网络人一样忙碌的话。
对我来说有用的是:(a)建立一个跟踪电子表格,包括任务和最后一次执行,以及(b)将它们放入日历中,也许是一年中的周列表,哪些是维护周,哪些是更改,窗口周等。
网络HA测试
本练习的重点是规划是人为的,容易出错,设备上的配置会随着时间的推移而发生变化。假设你可能不希望找出高可用性配置被破坏的困难方式(停机时间)。如果这很重要,你择承担测试的人力和其他成本。
实现这一点需要通过网络图,识别应发生故障转移的点,检查配置以查看功能是否正确配置。最佳实践是实际触发故障转移并返回以确保它确实有效。通常,这是通过在每个可用的更改窗口中进行一些测试来完成的。这通常风险较低,但在测试时可能会中断服务。这里的关键点是确定你的日程安排上的故障转移失败,而不是Murphy先生(如“墨菲定律”)。
你可能测试的位置和HA功能包括HSRP,到HSRP的静态路由或防火墙VRRP VIP(包括确保目标是VIP而不是“真正的”设备IP),切换堆栈成员故障,在两个WAN路由器和链路之间路由故障转移,等等。
如果你是一个视频不稳定的人,我们中的一些人就网络集体的 HA和弹性进行了聊天 。
配置备份/更改控制
对我来说,自动存档配置是一种很好的做法。各种工具执行此操作,通常会触发退出配置模式时出现的Cisco syslog消息。SolarWinds NCM,Cisco Prime基础设施/ APIC-EM,NetMRI等。
这可以在发生中断时进行配置比较,因为“改变了什么?”通常是在排除故障时提出的第一个问题。它还支持回滚。
我也喜欢用于教育/流程改进目的的审计跟踪(谁做出了改变)。
我个人更喜欢在我的笔记本电脑上加载当前配置的ZIP,以涵盖我无法访问存档的情况。当远程访问或文件共享路径不起作用时,这很方便。
网络设备库存
我非常喜欢拥有强大的网络设备清单,包括至少设备名称,IP地址,硬件模块,序列号,当前IOS / OS版本以及SmartNet或其他支持合同信息。你可能想知道的一切。
这是关键的一个原因:将配置管理设备库存与其他网络管理工具中的库存同步到“主”库存。如果你有自动发现开启,你应该,那么工具可以捕获你忘记添加到你的库存设备。上面提到的工具可以提供库存信息。
顺便说一下,你确实使用网络自动发现?当我们不得不担心SNMP导致设备重启或“大规模”网络流量时,我们已经过了黑暗时代了,不是吗?是的, SolarWinds或其他产品的许可证强制手动管理设备。效率低下。
我遇到很多带有工具的网站,其中包含不同的设备列表。这就是为什么我认为需要定期(年度)库存同步,这样你就不会在故障排除过程中发现差距。
对于那些了解我的人,我强烈认为你应该管理每个设备和每个界面。盲点是浪费时间。如果许可证的成本太高,那么你的工具就错了。
我也喜欢自动阈值(错误,丢弃,利用率百分比,进出)和警报的工具,因此你可以发现问题。不应容忍误差和丢弃百分比超过0.001%(或理想情况下甚至更低的水平),固定电缆。
是的,你确实需要管理用户和服务器端口。你可能会让用户认为网络速度很慢,因为他们多年来一直存在双工不匹配或电缆故障,而你却不知道。
缓存信息
我是缓存信息的忠实粉丝。原因如下:当出现网络危机时,我常常看到人们花费数小时挖掘信息。手动traceroute从A到B和B到A,写下跳,绘制图表。然后挖掘出涉及哪些接口并查看其配置。等等。耗时且容易出错,不要去那里。
这是良好的网络管理工具可以并且集成所有信息以节省时间的地方。 NetBrain和SolarWinds具有在某种程度上可以实现这一目标的路径功能。太多的工具提供了“可见性”,意味着将信息隐藏在其中的某个地方,但是你仍然需要在太多不同的地方挖掘太多,以便将你需要知道的内容整合在一起。
好的意味着它在你需要的时候就可以了。糟糕的是它什么时候都在某个地方,但需要花费两个小时的寻宝力才能将它全部拉出来并放入纸质桌子中。
缓存信息包括(a)良好的图表,以及(b)在DNS中使用你的路由器名称。请按照结构化命名约定使用短设备名称。不要在名称中包含设备类型,它会使名称变长,难以记住,并且稍后会咬你(设备类型是一个好的库存为你做的)。
图表需要可持续(并且结构化,模块化)或者浪费时间。Cookie-cutter网站和校园设计可能意味着你可以使用通用图表和每站点信息的XLS替换图表。使用常识。由于人们过度使用信息,包含太多信息,或者以难以改变的方式(如海报大小的图表)进行操作,因此图表因时间浪费而声名狼藉。
对于那些说他们没有时间制作好的功能图的人,我说,“你每次做traceroute / sketch事情都浪费一个小时,再加上冒险的错误。你最终反复做这件事。做到对,在前面,并在重要的时候节省时间!“
自动配置合规性检查
适用于配置合规性:配置随着时间的推移而变化 - 人们可能会不一致或陷入困境。
合规性检查工具可以为此提供帮助,但成本高昂(许可加上添加规则)。自行开发的工具必须处理由各种思科平台上的不同语法和默认值引起的复杂性(并且“show run all”不会按照预期的方式一致地显示默认值)。
周期设备代码升级和跟踪
新的IOS代码存在风险,但是当我看到一个未在7年内重新启动的设备时,我的反应是“相当强大,做得好的思科(或其他供应商)”,其次是“哦,但安全补丁避风港”已申请“。
NetCraftsmen和思科通常推荐“N-1”方法,就像最新的代码版本一样 - 其他网站为你测试的方法,发现了严重/常见的错误,并且有几个补丁更新。
我们还建议定期将代码刷新为N-1,每年一次或两次。许多网站都不记得这样做。
能力规划数据捕获和预测跟踪
大多数网络管理工具汇总了历史测量数据,从而平缓了流量高峰。
对于容量规划,你可以选择一些数字,例如第 95 百分位数或第 80 百分位数,并将关键接口的流量测量(入站,出站)捕获到Excel。假设你每月这样做。然后,你可以绘制数据点图表,应用趋势线,插入年度或季度容量目标。通过这样做,你可以了解你的感知与实际数据,从而实现学习和改进。
感谢我们的特里斯莱特里,我喜欢他的约百分位数据的关键点:95 个百分位意味着你测量的5%,分别为糟,甚至更糟。这样,每分钟的数据,72分钟的平均值分别为坏或大于95更糟个 百分位(1440分5%)。
改变准备
更改时间Windows快速发展。提前做好准备; 拥有configlet,回滚配置,电话号码/联系信息以及手头的所有必要信息是提高效率的关键。一些大型站点在一个XLS中使用选项卡将它们全部捆绑在一个位置。
拥有强大的测试计划也很关键。不要偏离那里(取决于关键性)。这不仅仅是一个过程项目,不一定是周期性的,而是改进你的变更方式。
经验表明,仓促准备经常与转换延迟和障碍相关联。没有计划测试可能意味着可能会在星期一早上咬你的差距。
除此之外,人们可能忘记做事情,例如他们为下行链路添加VLAN,但不向核心交换机之间的VPC或其他干线添加VLAN。然后可能需要一段时间来排除故障 - 你没有的时间。
事先对变化进行VIRL建模可能有所帮助,尽管L2在那里有点问题。VIRL至少可以捕获语法和路由问题。
第二个相关的做法是在更改的早期验证第1-3层。连接问题可以伪装成路由或更高级别的问题,从而消耗宝贵的转换时间。这也是CCIE实验室建议:在花时间处理复杂症状之前,检查你的基础知识(链接,寻址,路由邻接,所有这些都是稳定的)。
真正的DR / COOP规划和测试
我将在此强调的是为DR提供详细的网络计划,包括configlet,尤其是在需要动态重新配置的情况下。并测试它们。在DR网络启动之前没有任何作用,所以所有的目光都集中在你身上!
APP FAILOVER规划和测试
网络和应用程序团队确实需要讨论应用程序的DR故障转移是如何工作的。如果发生DR,这有助于适当的设计,自动故障转移和减少手指指向。定期测试有帮助。