想象一下,一个关键业务网络正在平稳运行。没有发起任何严重故障单,所有服务都可以运行。变更控制委员会在会议上成功审查当天的变更。
然后,网络团队执行一个小的路由变更,一切看起来都很好。但是,不久之后,他们看到几张高优先级的故障单。这是巧合还是事出有因?
对此,团队恢复变更,这样做可清除问题,并提供证据表明路由变更导致中断。在进一步分析后发现,路由变更导致网络的关键部分与互联网意外隔离。
在各种规模的网络中,类似的问题每天都会发生。变更控制委员会应该检测并防止不正确的变更,但问题仍然会发生。网络团队如何提高网络变更的质量?
自动化变更前和变更后检查的案例
一种选择是使用变更前和变更后的网络验证来评估网络在变更前后是否按预期运行。
这里的目标是,让网络团队通过执行一些简单的变更前路由检查来防止中断。如果变更前验证没有发现问题,那么变更后检查可以检测到不正确的路由状态,立即查明原因并恢复到先前的配置。这个验证网络状态的简单过程可以减少网络中断,或完全避免中断。
虽然团队可以使用手动流程来执行变更前和变更后的检查,但自动化更有意义。无论团队使用手动流程还是自动化流程,他们都必须确定变更前后的网络状态。工程师可能会注意到变更后状态经常成为下一个变更周期中变更前检查的基础。
变更前检查
当团队自动化变更过程时,可以快速进行。这还可以帮助团队避免人为错误,例如转换数字或在错误的界面上操作,这些是在变更窗口期间经常会发生的问题。
变更前过程应确保选择所需接口–通过检查其操作状态和分配的地址。如果已经启动并运行,是否已经连接正确的邻居?这些步骤可帮助团队避免愚蠢的错误和由此导致的中断。
网络团队可以使用变更前检查作为变更控制委员会职能的验证步骤。他们会将变更前验证的输出作为证据,以记录所需起始状态提交给变更控制委员会。变更控制委员会还要求团队提供一组变更后检查,他们将执行这些检查,以验证网络在变更后是否达到所需状态。
变更后检查
当变更后检查出现故障时,网络未处于预期状态。这可能是验证数据不正确或网络未处于所需状态。自动化可以保存收集的数据,并快速恢复变更,将网络恢复到变更前的状态。然后,团队可以针对所需状态分析收集的数据,进行任何需要的更正并重新执行变更。
随着团队采用此流程,他们可能会发现,很多网络操作状态检查对于执行变更都很有用,即使他们认为这些检查不适用。例如,在进行路由变更时是否需要检查网络时间协议?如果设备时钟不同步,日志数据将更难在网络设备之间关联。自动化使团队可轻松执行无法通过手动进行的多项检查。
定期状态验证
变更后状态可以是一种有用的工具,用于定期验证网络的操作,以确保网络按预期运行。假设冗余接口出现故障,并且网络管理系统没有标记它。定期状态验证将突出显示它,使团队能够采取主动行动。
何时安排验证运行
了解安排验证运行的频率取决于网络及其支持的业务功能。团队应在工作日开始前进行检查。
应在任何变更窗口之前执行检查,无论计划的变更如何。网络状态验证是只读操作,因此团队应该毫不犹豫地定期运行它。
开始网络验证
存储当前和所需的操作状态(以一种能够自动执行检查的格式)并不会涉及太多的工作。真正的工作是在自动化平台的数据收集和分析中。幸运的是,pyATS 等库可用于DIY 自动化,而商业产品可以帮助简化部署。如果团队找不到满足其需求的商业产品,咨询公司可以帮助他们构建系统。
总之,在日常操作以及变更控制流程中,没有理由不使用自动化进行网络状态验证。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/zixun/33627.html