去重技术终将发展到更多应用领域

2009-09-03 比特网编辑：郭镭

　　几乎所有的咨询分析机构都认定“重复数据删除”是一个热门的IT技术趋势。许多存储厂商也已经提供了支持数据去重的产品，但是用户对这项技术仍然持有许多困惑，也有一些应用失误。如果想避免出现问题，用户首先应该了解他们自己的数据，然后用真实的生产数据来测试去重效果，验证厂商的宣传是否属实。注意，用压缩后的数据测试是不准确的。

　　一个明显存在争议的应用问题是在线去重的效率是否比后处理去重更高?众所周知，处理重复数据删除需要消耗时间和系统资源，但问题是这些消耗在哪个阶段产生：是备份的开始阶段，还是结束之后?用备份服务器的CPU处理这些开销，还是在存储设备上进行?

　　我们看一个案例：堪萨斯州Lenexa市政府，选择了基于后处理模式的去重产品。该市的首席信息安全官兼网络管理员Michael Lawrence说：“这个问题取决于我们多快能把数据备份到虚拟磁带库设备。” 他们使用了ExaGrid公司的虚拟磁带库系统，该系统支持重复数据删除，可以保存15天的备份数据。除了做去重备份之外，该用户还将数据导出至物理磁带或做其他方式处理。

　　另一个有争议的问题是关于重复数据删除的比率，即去重开始时和结束时数据量之比。常见的比率是40:1、60:1和80:1，但是400:1这样的宣传我们也不是没听过。这取决于一些特定的应用环境，而且还要看我们怎么进行计算。可以说任何比率都是可能出现的，只是这样高的去重比率在一般用户的备份过程中不会出现。

　　“供应商极力宣传的那些指标对普通用户来说是不可思议的，也是不切实际的。” GSI Commerce Solutions公司的存储架构师 Tim Malfara表示。位于宾夕法尼亚King of Prussia的GSI Commerce公司并没有实施过重复数据删除产品。Malfara说：“并不是所有的备份都能从重复数据删除中获得好处，高分辨率的图片数据和结构化的数据库是我们备份的重点，但它们并不适合做去重处理。”

　　作为使用重复数据删除技术的用户，堪萨斯州Lenexa市尚不知道他们的去重比率可以达到多少。随着备份次数越来越多，数据重复的几率也在提高。管理员Lawrence说：“时间越久，去重的比率就越高。”

　　另一个争论的焦点是关于重复数据删除的那些专有或者公开的具体算法。算法看起来似乎五花八门，但被人们广泛了解和讨论的主要是“基于hash(散列)的算法”和“内容感知算法”。一般情况下，无论采用哪种算法，用户最终获得的性能是大致相同的。

　　那些公开的算法，比如SHA-1或者MD5，在大多数情况下非常有效。许多存储经理甚至不知道他们到底用的是哪种重复数据删除算法。

　　一些用户担心hash算法的碰撞问题，尽管统计上表明数据量的增长会使hash碰撞加剧，从而导致数据误码率的上升。但事实上，我们不必为此担忧。

　　独立备份专家兼TechTarget's Storage 媒体集团执行编辑W. Curtis Preston在他的博客中发表了一个统计，结果显示在95 EB(EB，exabyte数据量单位，1EB = 216 Bytes )数据中存在hash碰撞而导致数据块被误删除的机率是0.00000000000001110223024625156540423631668090820313%。而在数据恢复时碰到这个坏块的机率还要远远低于这个数。

　　为了打消用户的担心，我们引用一句来自Preston博客的话， “如果数据量小于95 EB，那么遇到坏块的机率将低于小数点后50位数，对这个几率，我觉得OK。”

　　四个简单的步骤，体验重复数据删除的最佳效果

　　我们怎么做才能体验重复数据删除的最佳效果?这里有四个简单的步骤：

　　1、了解自己的数据。是结构化的数据库、图形图像还是普通的文本文件?不同类型的数据差异很大，一般的文本文件更适合做去重处理。

　　2、用真实的生产数据测试重复数据删除。最好用大量的真实生产数据并在厂商的demo环境下进行测试，而且在决定购买之前，最好先测试一个月。

　　3、不要用压缩的数据做去重测试。实际上，重复数据删除本身就是数据压缩的另外一种形式，而数据压缩的过程也相当于去重的过程。

　　4、要理解去重只是一种功能，而不是一个产品。我们不必为了数据去重而去买一个去重产品，因为这个功能正在被广泛地纳入到一系列的存储产品中，包括VTL虚拟磁带库、备份软件和存储阵列。

　　如果有合适的数据加上合适的应用环境，重复数据删除技术会很好的发挥其功效。虽然现阶段我们利用它的主要目的是减少备份空间的消耗，但是，去重技术终将扩展到更多的应用领域，下一个目标也许就是“数据归档”。