关于灾难恢复计划:不要被供应商愚弄前沿技术
上述言论摘自Jon Toigo不久之前在TechTarget公司存储决策(Storage Decisions)高级灾难恢复伦敦研讨会上的讲话。
Toigo是Toigo Partners International公司的首席执行官兼数据管理研究所主席,他们强调在灾难恢复计划中采用一种常规和结构化的方法,其是企业明确指定相关具体工作人员确切地知道当灾难来临时,自己需要做什么以及何时做的关键。
他说:“您需要培养一些专职的人员,可以合理地在发生灾难时,在微观管理无法发挥作用的地方非理性的处理一些问题。”
他将这种有意识与有计划从供应商那里购买大量产品作为缓解灾难恢复压力的灵丹妙药进行了对比。
“您可以从您的服务供应商那里购买很多东西来应对灾难,例如,他们会推荐某款他们的产品,将其描绘成‘容灾高可用的王牌’。如果您一味的相信他们的推荐,那么您的所花费的资金甚至可能买下布鲁克林大桥。”
佛罗里达州的灾难恢复专家开始着手从三个关键领域解决灾难恢复。这三个关键领域分别是:数据恢复、重新托管应用程序和重新连接网络。
Toigo认为,对于灾难恢复而言,没有一套能够套用到适合任何规模所有企业的一种统一的方法。相反,他建议采用一种根据企业规模来按比例提供灾难恢复的技术方法,一种所谓的“恢复范围” 。
以传统备份和磁带作为存储介质在响应连续时间方面是造价最小且最慢的。此选项需要恢复数据,重新托管应用程序和进行网络重新连接。
接下来第二种是WAN镜像或连续数据保护(CDP) ,其造价比较昂贵,但其具有更频繁的保护点,从而消除了需要恢复的数据,但相关的应用程序仍需要恢复。
最后,也是最昂贵的备选方案,即接近实时站点之间的WAN故障转移。这种方案消除了恢复数据和应用程序的需要,但可能会需要重新连接网络。
纵深防御
Toigo制定备灾方案的关键概念是“纵深防御”,其是保持数据副本距离人力、电力、水力、网络等等需要考虑的引发灾难因素有足够远的基石。
Toigo还指出,大多数的灾难并不是突发事件,而是如果提前按照规定的方案排查,并采取相关措施就能避免的灾难,如在有组织的关闭系统之前通知相关人员应该采取的主要措施,务必在最后一分钟前进行备份。
数据是如何被保存的完全取决于该数据的重要性,以及该数据是否需要被再次利用。问题的关键是保持数据匹配到合适的存储技术,能够在磁带备份与双机热站点之间进行实时故障切换。
在解释他的“纵深防御”灾难恢复的概念中,Toigo强调,企业相对而言忽略了中间供应商群体的某些技术,但他在看来,其中一些技术还是相当有用的。这些技术包括:存储虚拟化和线性磁带文件系统(LTFS)。
存储虚拟化
存储虚拟化包含将硬件和软件产品放置在一个异构存储介质的虚拟化层之上。这些可以是磁盘阵列、直接附加存储、JBOD (简单磁盘捆绑just a bunch of disks)等;存储虚拟化产品创建一个存储池,并允许创建存储卷。
使用诸如复制和精简配置等产品所自带的高等级存储服务,Toigo认为存储虚拟化可以作为建立多个功能相同的数据中心站点的方式,而不必从供应商那里购买设备。
提供这些产品的包括DataCore公司和FalconStor软件、IBM的SAN卷控制器和NetApp的V系列硬件。
同时,Toigo主张使用LTFS作为一个生产层或近线,相对快速访问归档,使其能够相当快速的进行数据恢复。LTFS放置在一台类似于NAS磁带库头,提供了一个文件系统,因此,能够在几秒钟内按磁带数据的顺序加快访问速度。
Toigo认为,这种技术提供了合理的价格,并在灾难发生时确保数据受到有效的保护,适合于最关键和时间敏感的情况以外的很多数据集。
在某些情况下,Toigo关于灾难恢复的设置是很谨慎的,包括一批现代技术。
在这些技术包括:
硬盘和磁带
Toigo强调了硬盘驱动器的固有问题。“只有两种类型的硬盘:那些已经失败和那些即将失败的。”他指着九十分之一的驱动器将消失的统计数据说。存储阵列通常与磁盘驱动器的生产线顺序制作的,因此更可能因为类似的原因发生故障失败,“磁带已死”是灾难恢复过程中最糟糕的事。
云计算
Toigo还警告说,不要把云计算看作满足灾难恢复需求的灵丹妙药,甚至依赖它作为重复数据的存储库。他认为,最主要的原因是,其固有的不可靠性,尤其是在恢复数据最后一英里连接方面存疑。
“从来没有人检查过云服务是否真的存在…或者检查供应商可以通过磁带恢复数据。”他说。
您企业备份到一家云提供商的数据可以很快累积到相当大的量,他的论点是,如何保持如此海量的数据的连接,以及您企业是否负担得起。”
服务器虚拟化和灾难恢复
“不要傻到以为虚拟化可以修复一切。” Toigo认为,服务器虚拟化掩盖许多罪恶,特别是在数据保护方面。
“企业存在对于虚拟机镜像之间的过度依赖。这可能是难以测试和验证,而且并没有考虑在传输中的数据。大部分中断是凌乱的。唯一好的故障切换是故意的。 “他说。