诊治IP网络故障解决方案
、复杂的网络,管理员通过物理链路的分布,已无法快速识别业务路径。在这种情况下,需要采用仿真计算的方式,将网络上的配置、拓扑等集中到仿真软件中,计算出业务的预期路径。
预期建立之后,采用OSS软件定期获取路径的现状并与预期对比的方式,若不一致即发送告警,并提示管理员网络发生了故障。中小型、简单网络可以采用TraceRt获取路径。大型、复杂网络一般都会存在ECMP(Equal-Cost MultiPath等价多路径),此类情况一般可以综合TraceRt、转发表查询等方式来详细判断业务流的路径。另一种方式是通过分析IGP的泛洪报文,掌握路径建立的详细过程,根据路由算法和配置来掌握转发路径。
转发预期和检测
在转发平面上,预期的建立和检测非常密切,按照实现方式的不同,可以分为三种情况:非业务随路检测、业务随路检测和业务分析。
第一种是非业务随路检测。简单地说,就是自行定义预期,在网络上注入OAM检测报文。由于接收方已预先掌握了检测报文的大小、时间间隔等特征,当收到的报文不符合自行定义的预期特征时,即是发生故障。
这种方式的优点是容易获取和实施,网络各层面均有OAM检测协议可以使用,如BFD、EthOAM、ICMP Ping、MPLS OAM等,缺点是OAM检测报文特征与业务流量特征不完全一致,可能会出现检测未发现问题,但实际业务却发生了问题的情况。
第二种方式是业务随路检测,直接对业务流进行度量,典型代表是ITU-T Y.1731标准中定义的丢包统计功能,其原理简单地说就是“包守恒”,体现在以下的公式:
接收报文数量 = 发送报文数量
具体实现上,发送方和接受方都对业务流进行计数统计,发送方定时将计数发送到接收方,由接收方进行核对,核对出错即是故障发生。
第三种是业务分析。这种方式度量业务数据,并和预定义的标准阈值进行对比,如针对IPTV业务,采用专用硬件挂接在设备端口上,直接度量网络上IPTV流量的vMOS值等业务指标。这种方式需要采用DPI等方式,对实际业务报文进行采样统计或深度解析,按照业务已经定义的预期,分析其是否出现问题。该方式的优点是真实,缺点是设备部署和维护的成本高。
这三种方式不是非此即彼的关系,需要根据业务SLA目标,综合采购、维护成本等因素进行考虑和选择。
另外,控制平面和转发平面是互相有影响的,控制平面的运行直接影响转发平面的流量分布,可能会导致设备、链路的拥塞、故障等。因此,华为将控制平面与转发平面的预期建立和现状检测进行了综合与叠加,提供“路径+流量”的IP可视化方案,提供全面的故障监控和定位能力。
针对告警多的问题,华为在与中国移动的告警优化的合作中,通过对告警定义、告警级别的梳理,使城域网的日故障工单下降了50倍,每天的告警工单数量从500余条下降到10条左右,大大降低了工单处理的工作量。针对无告警的问题,如链路误码、链路闪断、器件失效和路由错误等常见疑难故障,以往需要几小时,甚至是几天时间才能排查,通过华为IP可视化方案,内部测试已经可做到分钟级的故障定位,该方案正在一些运营商网络上进行试点运行,已经取得一定成效,为帮助运营商降低维护难度,有效缩短故障恢复时长夯实了基础。
- 大唐电信胖瘦可转型WLAN整体解决方案(03-14)
- 巨型无线城市天馈解决方案(06-01)
- RFID工厂仓储物流解决方案(12-21)
- 3G4G应用中MIMO技术的实现挑战与解决方案(01-17)
- 联欣RFID无线作业管理系统解决方案 (05-07)
- 高通RF360前端解决方案支持全球LTE频段(02-25)