在系统设计中添加“黑盒子”故障记录仪
摘要:本文介绍了一种在网络、通信、工业和医疗设备中增添“黑盒子”功能的方案。综合介绍了记录故障数据的优势,包括能够快速、准确地定位故障,进行失效分析。
引言
相信每个人都了解“黑盒子”的用途,用于记录飞机飞行过程中发生意外瞬间的数据。飞机的“黑盒子”能够收集大量飞行操作数据,包括:高度、速度、襟翼和航向位置;记录飞行员在事故发生之前进行的操作和对话。这些数据对于最终分析事故的根本原因起着重要作用。
“黑盒子”并非名副其实,飞机上的黑盒子从不是黑色的,而是采用橙色,以便容易被发现。所以,该设备的正确名称应该是“事件数据记录仪”。
当然,在工程师眼里,“黑盒子”代表一个已知输入、输出,但内部操作未知的设备。本文并不讨论这种设备。在电子设备(而不是飞机)中增加数据记录功能——“黑盒子”,将为系统提供非常有价值的信息。电子设备中所谓的复杂系统管理器——黑盒子,用于记录网络、通讯、工业、医疗设备的故障数据。记录故障所带来的最大好处是快速、有效地进行失效分析。本文介绍了实现这个功能的方案以及利用非易失故障记录的便利条件。
电源管理机制
从电源管理的角度看,大多数系统架构看起来非常接近。无论系统是路由器、服务器、基站、光纤交换机、可编程控制器,还是磁共振成像仪,它们都包含开关电源和线性稳压器,而且都需要监测电压、电流、温度或风扇速度,如图1所示。
非易失故障记录
无论是大规模系统,还是一个“比萨”盒子大小的系统,其系统管理器的主要功能是控制、监测大量的电源和风扇,其中包括:系统故障查询,例如:过压/欠压、过流、温度是否超出工作范围,或者是风扇速度是否正常。将故障监测转化成检测参数是否超出阀值这类简单操作。系统运行过程中实时采集数据,并在发生故障时将数据存储到非易失存储器,由此创建事件数据记录器,图2显示了一个系统方案。
图2中,复杂系统管理器连续收集系统电压、电流、温度和风扇速度等数据。类似于飞机上的“黑盒子”,记录仪将滚动收集大量的最新数据(比如,500ms到1s的最新数据)。发生故障时,系统的瞬间信息将被永久记录下来。能够检查故障发生前500ms - 1s期间的系统操作,对排查系统故障的原因和系统分析非常重要。通过核查数据,可以重新组织时间段,确定系统的相互依赖关系。理想情况下,复杂系统管理器应记录多种故障,便于建立系统之间的相互依赖性,发生一个故障后,可能会引发更多的后续故障。为了找到故障的根本原因,需要记录尽可能完备的数据。而且,大容量非易失数据存储允许系统记录并非关键的故障,只是表示系统的某些参数超出了工作范围,这对提高整体系统的安全性非常重要。
- 电源设计小贴士 1:为您的电源选择正确的工作频率(12-25)
- 超低静态电流电源管理IC延长便携应用工作时间(04-14)
- 负载点降压稳压器及其稳定性检查方法(07-19)
- 高效地驱动LED(04-23)
- 电源SOC:或许好用的“疯狂”创意(07-24)
- 实现智能太阳能管理的微型逆变器应运而生(05-06)