重复数据删除走向“源头”数据应用
为了挖掘现有存储资源,优化企业存储系统,重复数据删除技术成为当下用户的应用热点。
但是,如何部署重复数据删除技术,是在数据源头还是存储后台,是在备份系统还是归档系统,如何与逐渐普及的虚拟化应用相互融合,所有这些都是影响重复数据删除应用效果的重要问题。
减少任意位置的重复数据
通常,一个企业IT系统里存储有几千个TB的数据,其中的重复数据可以说遍布各地,但是,数据的使用者和管理者往往是两部分人。
由于这两部分人的出发点不一样,常常出现矛盾之处,要想解决数据管理和使用之间的矛盾,只有通过整合物理资源。比如服务器虚拟化,通过虚拟化技术使得多个小的服务器归并到一个大的服务器里,同时保持各个服务器的虚拟的独立性。但这种资源整合常常做得不彻底,主要体现在对存储资源的保护并不是很彻底。企业存储设备的利用率依然不高并存储管理混乱的局面。
所以,当用户部署重复数据删除时,需要考虑减少任意位置的重复数据。重复数据实际上在企业里面到处都有,从数据产生到数据的保护、备份、复用,这些环节都有大量的重复数据的出现。举例来说,有一个用户在做信息查询系统的时候,为了提高系统的响应速度,采用了并行处理的办法。但在后端没有很好地利用相应的数据共享技术,而是简单地把数据备份到多个存储上。
在服务器虚拟化后,虚拟机上面大量的数据也是重复的。比如说刀片服务器,这些刀片服务器都是用的WindowsServer的版本,这个Server版本大量的image都是重复的。另外,在数据备份领域也都有大量的重复数据存在。
从数据源头删除
要想有效删除企业IT系统中任意位置的重复数据,最有效的方式就是让重复数据删除功能更加贴近数据源头。比如在赛门铁克即将发布的NetBackup7中,将进一步整合BackupExec技术,使得用户在客户端可以直接实现重复数据删除。
事实上,客户端直接执行数据删除,不仅能让重复数据删除功能发挥更大的功效,更意味着网络带宽、服务器吞吐能力的需求都会大幅度降低。而从整体应用角度出发,企业部署重复数据删除应注意三大价值:
首先是从数据源开始,因为越贴近数据源,删除效果就越好;其次,把备份系统和归档系统整合到一起。这不仅可使生产系统变快,也使得备份速度加快。把重复数据删除在做备份的时候放到了客户端而不是放在服务器,大量的重复数据在进入网络之前就已被删除掉;最后,利用统一的架构使得整个重复数据删除跟日常的运维整合在一起,这是一个长期的计划,可以优化数据结构。
针对这些用户需求和应用趋势,很多厂商目前都已推出了具备重复数据删除功能的产品或解决方案,稍有不同的是,赛门铁克决定把其主打产品NetBackup、BackupExec和EnterpriseVault同重复数据删除产品PureDisk实行整合,形成全面的重复数据删除战略。之所以跳出单独的重复数据删除产品而形成全面的整体战略,目的在于为客户的数据存储进行全面有效的“瘦身”,包括减少任意位置的数据、降低复杂性以及精简基础架构。
应该说,实现这一目标并不容易,其中最为重要的步骤在于,将赛门铁克原本独立的多个主打产品进行了整合,形成备份、归档以及去重的统一平台。同时,这一平台也能够对外开放,整合集成非赛门铁克的、第三方的重复数据删除的技术。根据已有的测算显示,如果把归档和去重相结合,可以降低主存储40%—80%的空间占用,而在备份部分增加这一技术将使得其空间占用更小,备份速度更快,能够最多降低95%的备份存储,并减少网络流量。