存储：压垮企业的最后一颗稻草

时间：04-15 来源：CNW 点击：

　　身处金融危机的危局，企业可谓是四面楚歌，危机重重，但是来自爆炸性数据增长的压力并不会因此有所减轻。据IDC统计，用户每年都会有54%左右的数据增长，这等于是18个月用户的数据就会翻一番。长此以往，用户的存储|0">存储系统很快就会不堪负荷，形式非常严峻。

　　对于企业而言，另外一个需要引起注意的是：今年7月1日，中国将颁布《企业内部控制基本规范》，相当于美国的萨班斯法案，对于企业有关商业数据举证，从法律上进行了规定，这对于企业的数据保护和存储都提出了更高的要求。以邮件为例，萨班斯法案中明确规定，企业所有电子邮件以及其他电子记录，必须保留5年或7年以上，同时要求在规定时间内完成高速检索。如果无法提供所需的电子邮件记录--或由竞争对手来提供这些记录--会带来严重处罚。中国将要实施的规范，是否会有这样严厉，尚不得而知。但是强制加强有关数据的保护是一个趋势，需要企业认真加以重视。

　　应对从数据分析入手

　　面临数据爆炸性的增长，单纯扩容存储肯定不是一个办法，仅从成本上就走不通。那么，计从何处?前不久访华的IBM ProtecTIER全球销售总监Mike Doran，IBM ProtecTIER解决方案亚太区域销售总经理Justin Hildebrandt在接受本报记者独家专访时，带来了一些解决问题的思路。

　　Doran先生指出，根据IDC的统计，当今世界结构化数据增长率大概是32%，而非结构化数据增长已达到近两倍(63%)，也就是说，企业大量的数据增长压力来自非结构化数据，最明显的例子是E-mail，收到别人发来的一封电子邮件，随即转发，如此就形成了大量的重复数据，如果能够从技术上，对此加以鉴别，就可以有效减轻来自数据爆炸性成长的压力。

　　Hildebrandt指出，最有效的办法就是采用重复数据删除技术。据他介绍，目前在市场上有两种重复数据删除技术，一种是Post Processing(后处理)，另一种是Inline Processing(在线处理)。其中，后处理是把完整的数据1：1备份到存储设备上，等所有数据全部备份成功，在一个固定时间，进行批处理压缩，实现重复数据的删除;其弊端显而易见，当数据量过大后，备份窗口过长将导致用户不堪重负;此外，由于承担备份存储的虚拟带库不中断运转，很难完成把虚拟带库的数据离线克隆到磁带上。

　　在线处理能够解决后处理面临的问题，但是，对于用户而言，有些问题也需要加以注意。首先，数据的恢复速度问题，恢复速度如果太慢，那么采用重复数据删除技术将得不偿失。此外，有些厂商的系统，其重复数据删除技术性能有限，无法处理超过100TB的数据。这些问题都会对用户使用造成障碍。

　　Diligent的选择

　　Diligent是全球著名的从事在线处理重复数据删除技术的公司，去年IBM收购了Diligent之后，由Doran来出任其全球业务总监，负责美国、欧洲、以及大中华的市场。

　　IBM收购Diligent之后，针对市场需求发布了IBM System Storage TS7650G ProtecTIER新产品。作为一种在线处理重复数据删除技术产品解决方案，它通过一个ProtecTIER服务器，对虚拟磁带库(VTL)提供支持，其中，ProtecTIER提供HyperFactor的在线处理方式的重复数据删除技术，它可以提供的压缩比为25：1，在一些特定的情况下，可以达到30：1。

　　据Hildebrandt介绍，较之市场上其他的在线处理重复数据删除技术产品，Diligent有两大独创的技术：缓存驻留索引和专利精简算法。其中，缓存驻留索引，使得其索引比可以达到250000：1，它的价值在于可以确保系统的性能。一方面它可以确保ProtecTIER备份服务器不成为备份的瓶颈，另外一方面它对于备份数据恢复的性能也直观重要。此外，由于采用缓存驻留索引的技术，系统就可以极快的速度计算索引、比较索引，当比较结果相同时，会再度进行二进制比较，确保数据一致性。其专利的精简算法，可以避免著名的哈希算法(Hashing Algorithms)的不足。

　　所谓哈希算法，是通过复杂的哈希算法，计算出一个8K的索引值，再通过该索引值进行比较，来确定数据是否为重复数据。但是哈希算法毕竟是一种算法，存在所谓的哈希冲突，也就说有可能两个数据虽然完全不同，但计算出的哈希值是一模一样的。如果重复数据删除技术据此进行数据删除，就导致数据不一致性，这是一场灾难。Diligent专利精简算法，当有新的备份数据读入时，在内存里先把特征值进行定位，然后跟内存做比较，如果一旦有相似的特征值，再去从磁盘把相关的值读出来，真正做一次二进制比较，确保数据不会有误删除的现象。通过这种计算差异以后，再把新的数据，通过2：1的LZH标准压缩格式存。一方面性能更高，同时可靠性比哈希算法更强，不会出现任何冲突。

　

上一篇：微软应公布Windows 7推出日期
下一篇：自动更新是不是做过头了？

数据分析存储重复数据删除相关文章：

栏目分类