设计可靠性: MTBF—这只是开始!
时间:09-17
来源:互联网
点击:
提高可靠性
有许多方法和技术可用于帮助延长MTBF,进而提高您系统或产品的成功概率。最常用的方法是降低组件所承受的额定电应力与热应力。通过如此降额,在进行上述零件应力分析时,您可将器件应力考虑在内。各个公司通常都会制定自己的降额规则。但是,如果没有内部规则,则您可以参考业界标准规则,例如欧洲空间局的ECSS-Q-30-11A与美国海军的NAVSEA TE000-AB-GTP-010。
虽然零件应力分析会增加非经常性工程成本,但是对于工程团队而言,还有许多其它选项,这些选项均会影响到经常性成本。
第一个选项便是提升组件质量,同时应用类似的降额规则。这可能意味着,从标准商业零件到高质量的军用(通过QML Q认证的IC)乃至航空(通过QML V认证的IC)组件全面提升质量。然而值得注意的是,随着组件质量水平的提升,其价格亦会随之提升。表1显示了集成电路、混合件以及分立件所需的各种不同标准。
第二个选项便是引入冗余,无论是模块间的还是模块内的。冗余可增加尺寸、重量以及解决方案的成本,但其所带来的后果是对系统可靠性造成显著影响,进而影响系统可用性。通常最好的做法便是在系统层面做出冗余决策,在系统中故障率较高位置安装额外组件。此种方法是专门针对冗余而开发的最佳解决方案。
在考虑冗余时,您可以选择热冗余或冷冗余。对于“热”冗余解决方案,冗余系统采用电动,其配置可以通过无缝切换替换失效模块,不会对系统性能产生任何影响。缺点在于此种情况下,冗余设备会承受应力。
表1 - IC、混合件与分立件的标准版、军用版与航空版
表2 - 状况监控详情表
在“冷”冗余方案中,冗余系统通常不采用电动,只有在主模块失效之后,才会重新启动。系统会终止活动,直到对冗余端进行重新配置,非失效模块才会继续工作。虽然工作会中断,但是优点在于冷冗余解决方案不会老化,因为冷冗余不采用电动,不会承受电应力。
引入冗余之后,您必须注意确保故障不会扩散,因为在主模块侧失效的时候,如果故障扩散,则就会影响到冗余模块的性能。
系统级考虑事项
考虑了零件质量以及冗余对系统造成的重大影响之后,您还可以执行其它选项,以确保发生错误或故障事件时系统性能正常。这些选项包括:
• 危险故障扩散模式
• 内置测试、遥测以及事件日志,用于监控和记录系统健康状况
• 设备接口,无论是单一连接器还是主模块与冗余
• 关键命令顺序(例如,分离系统“手臂”与“消防”命令)
• 内存与数据链路错误率(BER、ECC)可接受
作为监管或认证标准的一部分,您必须进行危险性分析,以确定设备发生故障时可能出现的潜在危险。因此,您需要负责确保系统级的设计能够采取适当措施,通过联锁装置等避免上述危险发生。如有必要,您应该将这些减缓措施作为规定要求应用到各个子系统,以便确保这些故障模式均得到正确处理。
了解设备健康状态,然后上报或记录,您可以通过此方式进行预测,确保运行不会受到故障的影响,确定设备故障原因,有利于对其进行维修。更多的复杂系统可能包括全面的自测功能,通电之后或者运行期间可以连续运行此功能。表2显示了更加详细的您可能考虑监控的需求中断测试。
上述结果可以通过通信链路以健康状态的形式进行传送,保存在非易失性存储器之中,例如,flash或FRAM或二者同时使用。通常情况下,您可能会选择采用实时时钟或越时计数器(elapsed-time counter),对这些事件逐一标记时间,以便形成参考系。
在恶劣环境下,工程师所面临的另一个问题是连接器。连接器是故障多发位置,因为里面的单独电缆可能会断开,或者连接器本身会因振动或震动等环境影响而掉落。因此,您可以通过装入冗余连接器和电缆来增加可靠性。第一个连接器发生故障后,冗余连接器可以接管通信,如图3所示。但是,这种冗余的代价是增加了复杂性,尤其是当您需要连接大量模块时。一种替代方案就是采用专门针对恶劣环境设计的连接器,例如MIL-STD 38999系列连接器。
图3 - 如果原始连接器出现故障的话,冗余连接器将接管工作,但代价是增加了复杂性。
若系统或产品将用于恶劣环境,例如,电气噪音比较大,则系统内部总线所传送的命令考虑采用手臂/消防方案是比较明智的。在上述方案中(参见图4),初始命令被传送至接收器,然后接收器确认命令,并启动超时。如果接收器无法接收消防命令,则会发出不予确认字符(NACK)命令,作为响应,接收器在启动超时之前会发出确认字符(ACK)命令。类似的,如果接收器接收到其它命令,则其会发送NACK命令,并重新开始处理。此方案可确保,其中一个命令因电磁干扰(EMI)而被中断时,不会无意中产生关键命令。
图4 - 对于电气噪音比较大的环境,“手臂消防”顺序有助于降噪。
此外,您还可以采用与手臂消防方法相类似的方法,确保所有通信链路和内存均有纠错与检测代码,确保可靠通信、数据得到可靠保存。至于是单独选择错误检测代码,还是选择错误检测与纠错代码,将取决于终端应用。然而,您可以使用许许多多的代码,从非常简单到比较复杂(表3)均可使用。保护级别随代码复杂程度增加而相应变化。
表3 - EDAC代码,从简单到复杂。
所有工程师,无论其正在研究的终端应用是什么,均必须考虑到终端系统的可靠性。工程师可自行选择许多方法,用于帮助实现高可靠性产品。
有许多方法和技术可用于帮助延长MTBF,进而提高您系统或产品的成功概率。最常用的方法是降低组件所承受的额定电应力与热应力。通过如此降额,在进行上述零件应力分析时,您可将器件应力考虑在内。各个公司通常都会制定自己的降额规则。但是,如果没有内部规则,则您可以参考业界标准规则,例如欧洲空间局的ECSS-Q-30-11A与美国海军的NAVSEA TE000-AB-GTP-010。
虽然零件应力分析会增加非经常性工程成本,但是对于工程团队而言,还有许多其它选项,这些选项均会影响到经常性成本。
第一个选项便是提升组件质量,同时应用类似的降额规则。这可能意味着,从标准商业零件到高质量的军用(通过QML Q认证的IC)乃至航空(通过QML V认证的IC)组件全面提升质量。然而值得注意的是,随着组件质量水平的提升,其价格亦会随之提升。表1显示了集成电路、混合件以及分立件所需的各种不同标准。
第二个选项便是引入冗余,无论是模块间的还是模块内的。冗余可增加尺寸、重量以及解决方案的成本,但其所带来的后果是对系统可靠性造成显著影响,进而影响系统可用性。通常最好的做法便是在系统层面做出冗余决策,在系统中故障率较高位置安装额外组件。此种方法是专门针对冗余而开发的最佳解决方案。
在考虑冗余时,您可以选择热冗余或冷冗余。对于“热”冗余解决方案,冗余系统采用电动,其配置可以通过无缝切换替换失效模块,不会对系统性能产生任何影响。缺点在于此种情况下,冗余设备会承受应力。
表1 - IC、混合件与分立件的标准版、军用版与航空版
表2 - 状况监控详情表
在“冷”冗余方案中,冗余系统通常不采用电动,只有在主模块失效之后,才会重新启动。系统会终止活动,直到对冗余端进行重新配置,非失效模块才会继续工作。虽然工作会中断,但是优点在于冷冗余解决方案不会老化,因为冷冗余不采用电动,不会承受电应力。
引入冗余之后,您必须注意确保故障不会扩散,因为在主模块侧失效的时候,如果故障扩散,则就会影响到冗余模块的性能。
系统级考虑事项
考虑了零件质量以及冗余对系统造成的重大影响之后,您还可以执行其它选项,以确保发生错误或故障事件时系统性能正常。这些选项包括:
• 危险故障扩散模式
• 内置测试、遥测以及事件日志,用于监控和记录系统健康状况
• 设备接口,无论是单一连接器还是主模块与冗余
• 关键命令顺序(例如,分离系统“手臂”与“消防”命令)
• 内存与数据链路错误率(BER、ECC)可接受
作为监管或认证标准的一部分,您必须进行危险性分析,以确定设备发生故障时可能出现的潜在危险。因此,您需要负责确保系统级的设计能够采取适当措施,通过联锁装置等避免上述危险发生。如有必要,您应该将这些减缓措施作为规定要求应用到各个子系统,以便确保这些故障模式均得到正确处理。
了解设备健康状态,然后上报或记录,您可以通过此方式进行预测,确保运行不会受到故障的影响,确定设备故障原因,有利于对其进行维修。更多的复杂系统可能包括全面的自测功能,通电之后或者运行期间可以连续运行此功能。表2显示了更加详细的您可能考虑监控的需求中断测试。
上述结果可以通过通信链路以健康状态的形式进行传送,保存在非易失性存储器之中,例如,flash或FRAM或二者同时使用。通常情况下,您可能会选择采用实时时钟或越时计数器(elapsed-time counter),对这些事件逐一标记时间,以便形成参考系。
在恶劣环境下,工程师所面临的另一个问题是连接器。连接器是故障多发位置,因为里面的单独电缆可能会断开,或者连接器本身会因振动或震动等环境影响而掉落。因此,您可以通过装入冗余连接器和电缆来增加可靠性。第一个连接器发生故障后,冗余连接器可以接管通信,如图3所示。但是,这种冗余的代价是增加了复杂性,尤其是当您需要连接大量模块时。一种替代方案就是采用专门针对恶劣环境设计的连接器,例如MIL-STD 38999系列连接器。
图3 - 如果原始连接器出现故障的话,冗余连接器将接管工作,但代价是增加了复杂性。
若系统或产品将用于恶劣环境,例如,电气噪音比较大,则系统内部总线所传送的命令考虑采用手臂/消防方案是比较明智的。在上述方案中(参见图4),初始命令被传送至接收器,然后接收器确认命令,并启动超时。如果接收器无法接收消防命令,则会发出不予确认字符(NACK)命令,作为响应,接收器在启动超时之前会发出确认字符(ACK)命令。类似的,如果接收器接收到其它命令,则其会发送NACK命令,并重新开始处理。此方案可确保,其中一个命令因电磁干扰(EMI)而被中断时,不会无意中产生关键命令。
图4 - 对于电气噪音比较大的环境,“手臂消防”顺序有助于降噪。
此外,您还可以采用与手臂消防方法相类似的方法,确保所有通信链路和内存均有纠错与检测代码,确保可靠通信、数据得到可靠保存。至于是单独选择错误检测代码,还是选择错误检测与纠错代码,将取决于终端应用。然而,您可以使用许许多多的代码,从非常简单到比较复杂(表3)均可使用。保护级别随代码复杂程度增加而相应变化。
表3 - EDAC代码,从简单到复杂。
所有工程师,无论其正在研究的终端应用是什么,均必须考虑到终端系统的可靠性。工程师可自行选择许多方法,用于帮助实现高可靠性产品。
FPGA 赛灵思 集成电路 连接器 总线 DAC 相关文章:
- 在采用FPGA设计DSP系统中仿真的重要性 (06-21)
- 基于 DSP Builder的FIR滤波器的设计与实现(06-21)
- 基于FPGA的快速并行FFT及其在空间太阳望远镜图像锁定系统中的应用(06-21)
- 3DES算法的FPGA高速实现(06-21)
- 用FPGA实现FFT算法(06-21)
- FPGA的DSP性能揭秘(06-16)