微波EDA网,见证研发工程师的成长!
首页 > 通信和网络 > 通信网络业界新闻 > 寻找磁盘可靠性新标准

寻找磁盘可靠性新标准

时间:05-20 来源:计世网 点击:
据统计,有20%到25%的存储系统故障是由于磁盘问题所引起的,而且,磁盘驱动器的实际故障率是厂商们声称的15倍甚至更高,用户更换磁盘的频率也远高于厂商的统计数字。上面这些统计数字让我们不得不更重视磁盘的可靠性,因此,用户在设计可靠性存储系统时应综合考虑更多的因素,如选择更可靠的磁盘类型和支撑架、使用冗余技术来应付组件故障、给不同的存储子系统配备独立的连接等。

在存储领域,MTBF(平均无故障时间,mean time between failures)和AFR(年平均故障率,average failure rate)一直都是存储厂商们自我评价的标准,同时也是用户在选购时非常关注的重要参数。

那么,为什么存储厂商和用户都会如此地关注这两个参数呢?从存储厂商的角度来看,他们希望用这样的数字来表征技术的发展。现在,厂商们纷纷宣称自己的磁盘产品的MTBF已经达到了100万至150万小时的水平,相当于114年到170年,这样的年限甚至已经远超过了一般人的寿命。

MTBF是用来衡量存储产品的可靠性指标,具体来说,是指相邻两次故障之间的平均工作时间。"但现在,MTBF这个参数已经变得越来越没有意义了,因为用户越来越弄不清楚这个数字究竟代表了什么。"Data Mobility的分析师Robin Harris说:"存储厂商们都在宣称自己的磁盘产品的平均无故障时间已经达到了100万小时,甚至更长的时间,但事实上,磁盘根本就坚持不了那么久,这让很多IT主管以及数据中心中的管理员们都感到十分困惑。"

"这些被‘冠名’为MTBF或者是AFR的数字真的能够帮助用户衡量磁盘驱动器的好坏吗?"曾经是EMC员工,现在是一家咨询公司IT顾问的Steve Smith对此提出了自己的质疑。

其实,甚至连存储厂商NetApp自己也承认了这一点。当有用户在分析机构Data Mobility所运营的StorageMojo博客上发表了一篇公开信来抗议实际的平均无故障率时间要比厂商标称的高出好几倍时,NetApp的回复是:大部分有经验的用户都知道,存储领域的磁盘故障率跟汽车厂商所标称的每公里耗油数的定义有些类似。也就是说,关于磁盘故障率的问题,就好比是开同样的车、使用相同的汽油,但是跑的公里数却不一样,在平均无故障时间上出现的偏差在很大程度上是因为用户没有在最佳的环境中配置和使用磁盘。很明显,这样的解释不免有些牵强。

MTBF已经过时

最近,很多研究机构对MTBF和AFR等衡量存储特性的参数进行了新一轮的研究,研究结果可以用这样的一句话来总结:在磁盘的可靠性和故障率的问题上,用户和存储厂商显然是行驶在了不同的车道上。

"事实上,MTBF确实是经过了实际的压力测试和科学的统计学推断而综合得出的数据。但是,大家不要忘了,当存储厂商们宣布自己的磁盘产品的MTBF为30万小时的时候,他们实际上是在说,在经历测试的所有磁盘中,经过30万小时的运行后,只有一半出现了故障。"Harris表示,"如果是这样的话,MTBF似乎对于某个磁盘驱动器能够使用多久并没有什么参考价值。也就是说,MTBF根本无法准确地表达出某个磁盘真实的故障率分布。"

"MTBF参数就好比是某一地区女性的平均身高这类统计数据一样,我们并不知道这个身高平均值的基数以及具体某个人的身高。其实,当初MTBF成为了衡量存储性能的标准参数的原因也就在于,人们觉得其在表示了磁盘可靠性高低的同时,不用去了解那些让人弄不懂的具体细节。"Smith表示。

"但是,在今天,MTBF这种简化了的参数已经不能再适应用户的需求了。"Smith补充说。Gartner的分析师Stan Zaffos也同意Smith的观点。不过,他也表示,MTBF还是能够比较准确地反映出存储厂商的技术发展水平,只不过这个参数对于用户来说理解起来比较困难,或者说这个数字对于用户来说意义已经没有以前那么大了。"要想真正地理解MTBF并不是一件容易的事情,它需要IT管理者有很多工程方面的经验和概率统计学方面的知识。"Zaffos补充说。


不吻合的三大原因

"现在,存储业界已经逐渐开始使用AFR来代替MTBF,以达到让用户更容易理解的目的。"Harris介绍说。同时,Carnegie Mellon研究中心的Bianca Schroeder也表示:"用户或许应该更想知道,在某一年中有多少比例的磁盘会出现故障。"

不过,据Carnegie Mellon的一项调查研究结果显示,磁盘的更换率也比存储厂商所提供的AFR数值高很多。厂商们提供的资料显示,AFR一般在0.58%到0.88%之间,但调查结果却表明,实际的年平均磁盘更换率超过了1%,一般来说在2%到4%之间,更高的甚至达到了13%。"在这里需要强调的是,我们在此次调查中搜集了许多大型存储系统更换磁盘的数据,其中涉及了10万个左右的SCSI、Fiber Channel和SATA磁盘,因此数据的可靠性还是有所保障的。"Schroeder补充说。

Schroeder还介绍说,研究发现,磁盘的更换率还会随着其使用时间而逐步升高,尤其是当磁盘使用了5年以后,磁盘驱动器通常就会开始老化。这项发现与很多用户的普遍看法非常吻合,但同时却与厂商所提供的AFR出现了很大程度上的不吻合。

对于出现这种不吻合的一种解释是,此项研究结果关注的是更换了多少磁盘,而AFR描述的是有多少磁盘预计会出现故障。"的确,故障与更换并不能划等号。举个例子,用户可能会在磁盘稍有异常的情况下就将其更换掉了,而这块磁盘其实仍然还可以使用。"Schroeder也解释说。

此外,出现这种不吻合的第二个原因可能是,存储厂商的测试环境一般都是十分理想的,而用户真正的使用环境通常就无法达到这样的水平。"用户在使用磁盘时,很多情况都可能会导致磁盘的损坏,比如振动、电涌、尘土和湿度等。"Zaffos介绍说。

而第三个原因可能就在于,存储厂商和用户对于故障的定义并不同。比如,当磁盘驱动器厂商拿到一块返厂的磁盘时,他们会把磁盘插进测试设备中,如果发现没有问题,就会贴上"no trouble found"或者"NTF"的标签。事实上,据统计,有20%到30%的返厂磁盘上都被贴上了"no trouble found"的标签。但如果用户拿一个这样的磁盘插进自己的服务器中,就会发现根本不能用。那么,对于用户来说,它就还是一块需要更换的坏磁盘。当然,客观地说,在对磁盘的好与坏的判断上,厂商和用户都没有原则上的错误。

这就正如Google的一项研究发现,磁盘的故障在很多时候是由于匹配不当所造成的,比如磁盘驱动器与控制器的不匹配。有的时候,用户在认为是坏了的磁盘驱动器中更换一个控制器后,就会发现仍然可以使用。据说,在Google的研究过程中,还发生了一件很有意思的事情:有一块在用户那里无论怎样都不能使用了的磁盘,在测试人员手中却始终显示一切正常。

伊利诺斯州立大学的一项研究也证实了这个发现。在分析了39000个商业存储系统和180万个磁盘错误记录后,得出了这样的结论:虽然存储系统出现的故障有20%到25%是由于磁盘问题所引起的,但系统的其他部分,比如物理连接或是协议栈等也是引起磁盘问题的重要原因--物理连接问题导致的故障占到了27%~68%;而协议栈问题导致的故障占到了5%~10%。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top