华为网管性能详解?
性能事件有很多的,完整讲得写几十页的文档。
高阶通道不可用秒 (HPUAS) ,是对应的VC4有告警(常见如AUAIS 或 HPTIM 等)。所以看到 不可用秒在不断增长,其实就是有告警存在,仔细检查一下具体是什么告警,把告警清除后,不可用秒就没了。
再生段误码,就是误码,可能是收光功率异常(过高或过低都有可能),或者光口故障(对端或本端都有可能)。误码类问题参考华为的产品手册或网管帮助文档等都会有介绍如何处理。
“统计类”的性能值(如有多少误码或误码秒或指针调整计数),通常计数值为零是正常。
这么说VC12、VC3就是在低阶通道了?
那再生段不可用秒,复用段不可用秒呢?我看网管上有些光口并没有任何告警(包括经过该光口的整条业务也没有告警),但是还是有高阶通道不可用秒,再生段不可用秒和复用段不可用秒的性能事件,这又是为什么呢?
除了告警之外,误码很严重时也是会引起 UAS 计数的。
性能计数中有 ES (误码秒) 和 SES (严重误码秒)。如果某一秒中误码较轻,会计入 ES ,如果某一秒误码较严重,会计 SES 。产生SES期间,BBE的计数会被抑制。ES 和 SES 不重复计算,即某一秒不会同时计入ES 和 SES ,最多只计其中一个。( 所以,看到 BBE 和 ES 计数,其实是较不严重的误码,当误码严重时,只会看到 SES 计数或 UAS 计数 。)
当连续10秒出现 SES(注意,必须的连续的10秒),就会开始计入 UAS ,并且UAS会从10开始计数,之后每一秒都是UAS,直到连续的10秒不是SES,则UAS计数中止,并且减去10。
除严重误码外,还会由以下告警产生不可用秒:
RLOS, RLOF 会引起 再生段不可用秒。
MSAIS可引起复用段不可用秒。
UNEQ,TIM,AIS,LOP会引起通道(高、低阶)不可用秒。
如何区分 UAS 由误码还是告警引起?一般如果误码严重到UAS的程度,也会触发误码类的告警如 Bx_SD, Bx_EXC 等,另外,误码一般是较随机分布的,会时轻时重,所以通常同时会引起BBE、ES、SES、UAS多种计数交叉增长。
反之,仅由告警引起的UAS,你只会看到 UAS 持续稳定地增长(15分钟会计数到900),而没有其它的计数。有时看到UAS,又看不到告警,很可能是告警被抑制或者RLOS告警反转,特别是通道级别的TIM,UNEQ等可能被屏蔽或默认就不监视不上报。 告警即使被屏蔽也不影响触发UAS。总之UAS的来源一定是清楚明白的。
如果同时有再生段、复用段、通道不可用秒,一般分析再生段的就可以 (故障分析原则:先高阶,后低阶)。检查有无RLOS、RLOF或者收光功率是否正常值,注意告警有可能反转或者屏蔽或不主动上报。
那现在我假设是由误码产生的不可用秒而非告警产生的不可用秒时,是否只有当误码突破门限后产生BX_EXC之类告警时才需要去关注误码性能,没有产生告警的话就可以不用去关注,因为没产生告警的话不会影响业务的正常运行,是这样吗?还有就是华为网管当前性能的最后一列有一个性能值,这个值在多少范围内才算是正常呢?还是说不用看这个值的。
1. 请查看15分钟历史性能,如果 UAS的15分钟历史值都是 900(s) ,那么99%是告警引起的 UAS 。
2. 绝大多数情况下(除非是遇到某些极端恶劣的不可拒因素),应该是零误码(一般会测试24小时零误码)。 误码是需要关注,并且排查问题的。当然,如果24小时中BBE的累计计数值小于100甚至小于10,ES少于10秒,这种误码要排查比较困难,通常只能逐个替换可能引起误码的部件然后长时间观察问题是否解决,如此排查过程也难免需多次中断业务及费时费力,这时也可以考虑容忍这种极零星的误码。
3. 没产生告警不等于没影响业务。通信质量或性能下降通常从性能数据中体现。
4. 性能值是“性能”中最关键的内容。如果没有性能值,就相当于一个没有安装时、分、秒指针的时钟。正常范围无法简单说明,建议查相关设备手册。
[支路] A [东] ------------ [西] B [东] ---------- [西] C [东] -------- [西] D [支路]
假设一个VC12业务 从 A 到 D 。
业务经过了 三段 光纤线路: AB 、 BC 、 CD 。
线路误码,是指再生段误码。每个光口都是一个再生段开销处理模块。任两个光纤直连的光口,就形成一个再生段,故SDH网络中每一段光纤即为一个再生段。
误码是通过源端计算,宿端再计算校验而判断出来的。
假设 A 发往 B 单向产生误码 , A [东] 发出的数据,由 B [西] 接收时会有改变,B [西] 会上报再生段误码。再假设BC间线路完全正常, B [东] 发出的数据,由 C [西]接收是一致的,C [西]不会有再生段误码 (BC是另一个再生段,C[西]只与B[东]进行比较 )。可见,B收A有再生段误码,并不影响C收B这个再生段,即“不会穿通到其它线路板”。
再生段开销处理,与具体业务配置无关,只要光口为激活状态,就会进行检验计算再生段误码。而高阶通道、低阶通道的开销处理,则与业务配置有关(如业务的级别,配置的通道,开销处理模式等)。
LPBBE是由配置低阶业务的源、宿位置(典型情况就是源、宿支路板)进行比较判断有无误码。
如果AB线路(再生段)有误码,那么一条 A[支路] -- D[支路] 的VC12业务也会受到影响有误码,并且在 D[支路] 才会上报 LPBBE (中途的线路板不会检查上报LPBBE)。 如果将A -- D 支路业务修改为 A -- C 或 A -- B 支路业务,那么会变成由C[支路]或B[支路]上报LPBBE (VC12业务只要经过 AB再生段,都受影响),故“支路误码跟着业务走”是这个意思。 你不能根据单个支路上报的LPBBE去推断准确的故障位置。但如果你同时有很多条不同的支路业务,如 A--D, A--C, A---B, B--D. B--C , C--D ,根据不同的上报误码情况就很可能分析出故障的位置。