A-SIS:重复数据删除应运而生
它们大部分都可以结合使用。 Snapshot 副本 从一开始,WAFL 就允许通过 Snapshot 技术共享数据块。由于文件会随时改变,您可使用 Snapshot 副本捕获该文件的多个版本,并且存储成本仅与版本之间的更改量相对应。 无论作为本身的功能,还是作为诸如 SnapVault[R] 和 SnapMirror[R] 之类的应用程序的基础,Snapshot 副本都已证明了其价值。在 WAFL 中,就性能而言它们没有问题。它们的主要限制是它们只能在同一文件的不同版本之间提供块共享,这与在不同文件之间共享重复块的 A-SIS 不一样。 有时,如果您未使用过 NetApp 存储,您会发现 Snapshot 副本的 NetApp"纯增量"方法在所有主要的存储供应商中独树一帜,并且是我们的 SnapVault 和 SnapMirror 产品背后的基本技术,也是它们成功的主要原因。 压缩 在将数据写入磁盘之前进行压缩是一种节约空间的好方法。很多算法(如 gzip)可将文件压缩到一半或更小,即使没有可供共享的重复数据也能做到。压缩的缺点是它需要耗用大量 CPU 资源。而且,有些类型的数据(如映像)已经过压缩,不能得到这种优势。由于 A-SIS 重复数据删除可将数据的数百份副本压缩成一份,在拥有很多副本的环境中这可能比压缩节约远远更多的空间。 NetApp 目前在 Decru[R] 和 VTL 产品中提供了压缩功能。 内容寻址存储 (CAS) 尽管内容寻址存储的实施方法常常很不一样,但它在概念上与 A-SIS 重复数据删除相似。数据的"斑点"经过哈希处理后,哈希值将用于对其进行识别。对于指定哈希值的数据只会存储一个副本。一个文件可能包含许多斑点。 从某种意义上说,CAS 比 A-SIS 重复数据删除更灵活,因为 CAS 斑点不必是整个文件系统块。但是,在某个很重要的方面,CAS 却不够灵活。借助 A-SIS 重复删除功能,WAFL 可使用指纹作为密钥来共享块,但其基本数据结构仍然不变并且该共享是隐蔽的。(当然,您可随时关闭 A-SIS 重复数据删除功能。) 反之,在大多数 CAS 实施中,始终是通过哈希值来找到斑点。这就使它很难获得较高的性能,因此 CAS 通常是用于大部分为写入操作的归档应用程序,而不是需要对电子发现和数据恢复等即时读取作出快速反应的应用程序。 CAS 有一个方面有时会引起争议,即如果两个斑点具有相同的哈希密钥,则将其视为相同。如果两个不同的斑点碰巧具有相同的哈希值,那么数据就会丢失。这叫做"哈希冲突"或"误判"。有些统计数据可以很好地说明这种情形极不可能出现,但许多人还是不以为然。A-SIS 重复数据删除因此采取了一种保守的方法,只有块的内容(不单单是指纹)相同时才会共享块。在删除作为副本的块之前,A-SIS 逐个字节进行了比较以确保该数据确实相同。 总结 A-SIS 重复数据删除利用 WAFL 的独有特征来节省磁盘空间,同时保持较低系统开销。在许多环境中,可以大量地节约空间。即使在主目录环境等主存储应用程序中,A-SIS 重复数据删除也经常可以节约大量空间。 比如借助 NetApp Snapshot 技术,A-SIS 重复数据删除机制一定会为将来开发新颖的新应用程序(如克隆文件)奠定基础。WAFL 的持续演进是一个令人兴奋的发展过程。 作者介绍 Blake Lewis
NetApp 的 Data Retention 技术总监
Blake Lewis 于 1996 年加入 NetApp,在 Data ONTAP® 操作系统的许多领域都有较大贡献。他负责 NetApp WAFL® 文件系统的体系结构已有多年。目前,他是 Data Retention 组的技术总监,在此他的主要任务是让二级存储变得更实用、更经济。
- 携手 NetApp 交通银行破解数据“信息孤岛”(07-02)
- NetApp 网络存储技术在地震数据管理中的应用(07-07)
- NetApp简化异构环境的数据管理(07-20)
- 规模造成灭亡:避免这种情况的三个秘诀(07-14)
- 如何将1500 节点无盘服务器群发展成为完全虚拟化系统(10-19)
- NetApp某油田公司地学数据存储解决方案(10-19)