微波EDA网,见证研发工程师的成长!
首页 > 通信和网络 > 通信网络业界新闻 > 存储:压垮企业的最后一颗稻草

存储:压垮企业的最后一颗稻草

时间:04-15 来源:CNW 点击:

  身处金融危机的危局,企业可谓是四面楚歌,危机重重,但是来自爆炸性数据增长的压力并不会因此有所减轻。据IDC统计,用户每年都会有54%左右的数据增长,这等于是18个月用户的数据就会翻一番。长此以往,用户的存储|0">存储系统很快就会不堪负荷,形式非常严峻。

  对于企业而言,另外一个需要引起注意的是:今年7月1日,中国将颁布《企业内部控制基本规范》,相当于美国的萨班斯法案,对于企业有关商业数据举证,从法律上进行了规定,这对于企业的数据保护和存储都提出了更高的要求。以邮件为例,萨班斯法案中明确规定,企业所有电子邮件以及其他电子记录,必须保留5年或7年以上,同时要求在规定时间内完成高速检索。如果无法提供所需的电子邮件记录--或由竞争对手来提供这些记录--会带来严重处罚。中国将要实施的规范,是否会有这样严厉,尚不得而知。但是强制加强有关数据的保护是一个趋势,需要企业认真加以重视。

  应对从数据分析入手

  面临数据爆炸性的增长,单纯扩容存储肯定不是一个办法,仅从成本上就走不通。那么,计从何处?前不久访华的IBM ProtecTIER全球销售总监Mike Doran,IBM ProtecTIER解决方案亚太区域销售总经理Justin Hildebrandt在接受本报记者独家专访时,带来了一些解决问题的思路。

  Doran先生指出,根据IDC的统计,当今世界结构化数据增长率大概是32%,而非结构化数据增长已达到近两倍(63%),也就是说,企业大量的数据增长压力来自非结构化数据,最明显的例子是E-mail,收到别人发来的一封电子邮件,随即转发,如此就形成了大量的重复数据,如果能够从技术上,对此加以鉴别,就可以有效减轻来自数据爆炸性成长的压力。

  Hildebrandt指出,最有效的办法就是采用重复数据删除技术。据他介绍,目前在市场上有两种重复数据删除技术,一种是Post Processing(后处理),另一种是Inline Processing(在线处理)。其中,后处理是把完整的数据1:1备份到存储设备上,等所有数据全部备份成功,在一个固定时间,进行批处理压缩,实现重复数据的删除;其弊端显而易见,当数据量过大后,备份窗口过长将导致用户不堪重负;此外,由于承担备份存储的虚拟带库不中断运转,很难完成把虚拟带库的数据离线克隆到磁带上。

  在线处理能够解决后处理面临的问题,但是,对于用户而言,有些问题也需要加以注意。首先,数据的恢复速度问题,恢复速度如果太慢,那么采用重复数据删除技术将得不偿失。此外,有些厂商的系统,其重复数据删除技术性能有限,无法处理超过100TB的数据。这些问题都会对用户使用造成障碍。

  Diligent的选择

  Diligent是全球著名的从事在线处理重复数据删除技术的公司,去年IBM收购了Diligent之后, 由Doran来出任其全球业务总监,负责美国、欧洲、以及大中华的市场。

  IBM收购Diligent之后,针对市场需求发布了IBM System Storage TS7650G ProtecTIER新产品。作为一种在线处理重复数据删除技术产品解决方案,它通过一个ProtecTIER服务器,对虚拟磁带库(VTL)提供支持,其中,ProtecTIER提供HyperFactor的在线处理方式的重复数据删除技术,它可以提供的压缩比为25:1,在一些特定的情况下,可以达到30:1。

  据Hildebrandt介绍,较之市场上其他的在线处理重复数据删除技术产品,Diligent有两大独创的技术:缓存驻留索引和专利精简算法。其中,缓存驻留索引,使得其索引比可以达到250000:1,它的价值在于可以确保系统的性能。一方面它可以确保ProtecTIER备份服务器不成为备份的瓶颈,另外一方面它对于备份数据恢复的性能也直观重要。此外,由于采用缓存驻留索引的技术,系统就可以极快的速度计算索引、比较索引,当比较结果相同时,会再度进行二进制比较,确保数据一致性。其专利的精简算法,可以避免著名的哈希算法(Hashing Algorithms)的不足。

  所谓哈希算法,是通过复杂的哈希算法,计算出一个8K的索引值,再通过该索引值进行比较,来确定数据是否为重复数据。但是哈希算法毕竟是一种算法,存在所谓的哈希冲突,也就说有可能两个数据虽然完全不同,但计算出的哈希值是一模一样的。如果重复数据删除技术据此进行数据删除,就导致数据不一致性,这是一场灾难。Diligent专利精简算法,当有新的备份数据读入时,在内存里先把特征值进行定位,然后跟内存做比较,如果一旦有相似的特征值,再去从磁盘把相关的值读出来,真正做一次二进制比较,确保数据不会有误删除的现象。通过这种计算差异以后,再把新的数据,通过2:1的LZH标准压缩格式存。一方面性能更高,同时可靠性比哈希算法更强,不会出现任何冲突。

 

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top