故障域隔离(FDI)方法有效避免网络事故的“互相推诿”
您可能已经猜到,FDI是一个可以分层部署的"分治"流程。您还可以在每个技术层次中进行FDI,从而进一步隔离问题,直到高效完成RCA。这个过程可以称为"层内FDI"或"辅助FDI"。
辅助FDI工作流程尤其适用于网络事故调查。同理,为达到FDI的最佳效果,我们需要监控并储存关键网络组件之间的实际数据包流,从而进行有效的回顾性分析。
如果以网络内FDI作为目标,则需要了解应在哪些位置部署网络分路器和网络记录工具。首要FDI与网络内FDI之间的主要区别在于观察点的位置更多与物理位置、技术、员工专业技能以及外包程度和外部提供商有关,与组织问题关系不大。但是,FDI流程较为类似:执行基于数据包的分析以提供确凿证据,从而确定哪些技术或服务提供商存在问题、哪些不存在问题。
始终运行还是始终可用?
我们不希望等到发生重大事故时才开始部署执行FDI所需的分路器和监控工具,这将与FDI的初衷背道而驰。因此,我们应部署并始终运行执行主要/一级FDI所需的分路器和网络记录工具。
但是,如何执行辅助/技术内FDI呢?如何处理远程站点、地区性数据中心和非关键性应用呢?您不可能四处进行分路,也无法储存一切内容。
幸运的是,人们开发了许多网络记录工具,以满足主要技术层之间的"始终运行"记录需求,以及通过网络数据包代理连接到众多二级分路点的"始终可用"记录需求。始终可用的设备不一定能够保证长期的回顾可视性,但您可以在需要时快速配置这些设备,根据当前事故调查的特定可视性需求进行监控。
如此简单?
那么,FDI真的像我们所说的那么简单吗?我们需要辩证地回答这个问题。很显然,在现代企业联网业务应用基础架构这样复杂的动态系统中,可能会出现各种反常、复杂甚至是匪夷所思的问题。您始终需要对这些类型的问题进行深入调查,并利用专家的技能和知识来加以解决。但这并不能说明FDI与有效解决这些负载问题无关。事实上,这些问题使一个严格、可重复、由数据驱动的FDI流程更为重要了。要解决复杂问题,为什么不采用FDI这种久经考验的"分治"方法呢?