谈数据中心应急规划的经验教训绿色数据中心
2013-08-15 来源:机房360 编辑:litao984lt
数据中心专业人员们其实是乐观主义者,但是在经过了专业的培训之后会变成悲观主义者。尤其是当您企业的业务有着非常复杂的系统需要启动和运行,同时还要设法避免诸多的业务不
庆幸的是,那些我们所认为的真正的最坏的并为之建立了应急预案、构建了冗余系统,并进行过实弹演习的情况几乎从未发生过。而当最糟糕的情况发生时,便是我们的担忧和应急规划必须充分经受考验的时候了。桑迪飓风便是去年所发生的最糟糕的情况之一。
当它于2012年10月在新泽西州登陆时,大风和风暴潮相结合所带来的破坏性影响及损害是如此严重,沿海社区的居民们到现在仍在试图恢复。而对于数据中心行业也同样,飓风所带来的巨大冲击,在经过了好几个月后仍然无法平息。最近我所参加的一个在纽约举办的关于数据中心的讨论会上,桑迪飓风目前仍然是占主导地位的话题。正式官方场合,该飓风仅仅只是一个小组会议的焦点,但在非官方场合,关于桑迪飓风的讨论却是无处不在。
很多讨论都是很自然从此次飓风对个人产生的影响开始,然后不可避免地转向了工作方面。当水位开始上升时,企业的哪些设备还能正常运转,哪些不行了。而那些专为偶然发生的突发事件所准备的应急预案,在现实中却被用来应对自然灾害。
从中固然有很多成功的经验值的讨论,但更有很多关于那些没有发挥作用的教训值得我们总结。可以说,桑迪飓风为我们提供了难得的机会,来检验我们的应急预案,把我们带入到一个活生生的实验室进行实打实的测试,我强烈地感到,这将帮助我们更好的准备未来最坏的情况的发生,其应该成为业界的一个良性的讨论对话。为了进一步促进业界关于此次飓风所带来的检验教训展开广泛的讨论和对话,在本文中,我将概述三方面的关键经验教训。这些经验教训都是此次桑迪飓风的洪水退去过后,我从与资深的专业数据中心人士们的交流与沟通中学到的。
您企业的燃料供应链是否准备好了?
同任何人从梅尔•吉布森《疯狂的麦克斯》电影中学到的一样,我们从桑迪飓风中所学到的最大的教训之一便是:在发生危机时,汽油是最为稀缺、而且消耗得最快的。数据中心灾难计划把备用发电机作为重中之重,这样所带来的结果便是:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般的耗尽了……而没有了燃料,发电机根本不能发挥任何作用。通过此次飓风灾害,我们发现许多企业并没有足够的关注他们的燃料供应链。
在飓风灾害发生之后,天然气供应短缺会持续相当长的一段时间,这无疑会造成许多设施问题。即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。届时,就算他们可以购买到燃料,而受制于运送路线的障碍,他们所急需的燃料也无法到手。这是我们这个行业亟待解决的一个重要问题,这些问题可能会在其他的情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,我们作为一个行业需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。
您企业的合约细则是什么?
在桑迪飓风过后,很多公司发现了一个在数据中心的合同中经常被忽视的部分:“不可抗力因素”条款。这更通俗的说,可以被称为“天灾”条款。这在客户的合同条款中给了数据中心操作员一个如果事情超出了他们的控制,使他们无法履行义务的借口。任何人都会觉得一次造成曼哈顿下城和大斯塔滕岛以及新泽西洪水泛滥的超级风暴,都满足不可抗力因素的条款,但一些数据中心公司了解到,他们的客户合同中存在着一些薄弱环节或者并不存在不可抗力因素的条款,却也没有很好的保护他们。
另一方面,作为数据中心的客户,当发生在天灾影响到他们的业务时,哀叹合同中规定了不可抗力因素条款。没有人曾想过这些不可抗力因素的情况将会发生,所以这样的条款常常只是作为一种标准合同语言,而被忽视掉。桑迪飓风告诉我们的经验是:这一条款要在合同谈判双方在着眼于长远的未来的情况下签订,以便数据中心服务供应商和客户双方充分理解该合同的语言,感受自身在发生自然灾害情况下的受保护程度。
您的企业是否制定了人员安置计划,而不仅仅只是保证数据中心的技术周全?
企业的数据中心应急预案往往首先注重系统和技术问题,但他们往往缺乏足够的先见之明来预见到在发生诸如桑迪飓风这样的灾害天气时企业人员的安全问题。由于桑迪的损害范围广,企业不能只专注于技术方面。他们还需要能够支持企业运转的员工,他们试图在工作中履行自己的职责的同时,飓风同样会对他们的家园及其家人造成影响。
应急计划的制定,往往就是为了让企业的员工在发生紧急事件时保持良好的心态,以便知道自己应该采取怎样的应对措施。其往往假设员工在需要的时候,并不会分散注意力,就像是普通的一天一样工作。但现实情况是,像桑迪这样的风暴只会让员工奋力想着自身的安全,同时还要兼顾他们的工作职责。现实是应急预案必须做到一个更好的预测和响应工作。此外,还有许多关于企业员工安置的非常现实的问题,企业也需要提前做好准备:风暴会使得员工长时间被困在工作岗位,新员工也无法来上班,主要负责人找不到,迫使人们在工作场所睡觉,导致解决员工的食宿也成为困难等等。许多企业建立了专项应急预案以解决员工们的需求,其中包括交通、安排饮食、休息等。
不同与数据中心的冗余设备唯一目的便是致力于保护数据中心的故障转移功能,人的因素要复杂得多。冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是当受灾地区是指家里时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训的价值就变得格外清晰了,这将帮助数据中心解决很大的难题。
当它于2012年10月在新泽西州登陆时,大风和风暴潮相结合所带来的破坏性影响及损害是如此严重,沿海社区的居民们到现在仍在试图恢复。而对于数据中心行业也同样,飓风所带来的巨大冲击,在经过了好几个月后仍然无法平息。最近我所参加的一个在纽约举办的关于数据中心的讨论会上,桑迪飓风目前仍然是占主导地位的话题。正式官方场合,该飓风仅仅只是一个小组会议的焦点,但在非官方场合,关于桑迪飓风的讨论却是无处不在。
很多讨论都是很自然从此次飓风对个人产生的影响开始,然后不可避免地转向了工作方面。当水位开始上升时,企业的哪些设备还能正常运转,哪些不行了。而那些专为偶然发生的突发事件所准备的应急预案,在现实中却被用来应对自然灾害。
从中固然有很多成功的经验值的讨论,但更有很多关于那些没有发挥作用的教训值得我们总结。可以说,桑迪飓风为我们提供了难得的机会,来检验我们的应急预案,把我们带入到一个活生生的实验室进行实打实的测试,我强烈地感到,这将帮助我们更好的准备未来最坏的情况的发生,其应该成为业界的一个良性的讨论对话。为了进一步促进业界关于此次飓风所带来的检验教训展开广泛的讨论和对话,在本文中,我将概述三方面的关键经验教训。这些经验教训都是此次桑迪飓风的洪水退去过后,我从与资深的专业数据中心人士们的交流与沟通中学到的。
您企业的燃料供应链是否准备好了?
同任何人从梅尔•吉布森《疯狂的麦克斯》电影中学到的一样,我们从桑迪飓风中所学到的最大的教训之一便是:在发生危机时,汽油是最为稀缺、而且消耗得最快的。数据中心灾难计划把备用发电机作为重中之重,这样所带来的结果便是:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般的耗尽了……而没有了燃料,发电机根本不能发挥任何作用。通过此次飓风灾害,我们发现许多企业并没有足够的关注他们的燃料供应链。
在飓风灾害发生之后,天然气供应短缺会持续相当长的一段时间,这无疑会造成许多设施问题。即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。届时,就算他们可以购买到燃料,而受制于运送路线的障碍,他们所急需的燃料也无法到手。这是我们这个行业亟待解决的一个重要问题,这些问题可能会在其他的情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,我们作为一个行业需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。
您企业的合约细则是什么?
在桑迪飓风过后,很多公司发现了一个在数据中心的合同中经常被忽视的部分:“不可抗力因素”条款。这更通俗的说,可以被称为“天灾”条款。这在客户的合同条款中给了数据中心操作员一个如果事情超出了他们的控制,使他们无法履行义务的借口。任何人都会觉得一次造成曼哈顿下城和大斯塔滕岛以及新泽西洪水泛滥的超级风暴,都满足不可抗力因素的条款,但一些数据中心公司了解到,他们的客户合同中存在着一些薄弱环节或者并不存在不可抗力因素的条款,却也没有很好的保护他们。
另一方面,作为数据中心的客户,当发生在天灾影响到他们的业务时,哀叹合同中规定了不可抗力因素条款。没有人曾想过这些不可抗力因素的情况将会发生,所以这样的条款常常只是作为一种标准合同语言,而被忽视掉。桑迪飓风告诉我们的经验是:这一条款要在合同谈判双方在着眼于长远的未来的情况下签订,以便数据中心服务供应商和客户双方充分理解该合同的语言,感受自身在发生自然灾害情况下的受保护程度。
您的企业是否制定了人员安置计划,而不仅仅只是保证数据中心的技术周全?
企业的数据中心应急预案往往首先注重系统和技术问题,但他们往往缺乏足够的先见之明来预见到在发生诸如桑迪飓风这样的灾害天气时企业人员的安全问题。由于桑迪的损害范围广,企业不能只专注于技术方面。他们还需要能够支持企业运转的员工,他们试图在工作中履行自己的职责的同时,飓风同样会对他们的家园及其家人造成影响。
应急计划的制定,往往就是为了让企业的员工在发生紧急事件时保持良好的心态,以便知道自己应该采取怎样的应对措施。其往往假设员工在需要的时候,并不会分散注意力,就像是普通的一天一样工作。但现实情况是,像桑迪这样的风暴只会让员工奋力想着自身的安全,同时还要兼顾他们的工作职责。现实是应急预案必须做到一个更好的预测和响应工作。此外,还有许多关于企业员工安置的非常现实的问题,企业也需要提前做好准备:风暴会使得员工长时间被困在工作岗位,新员工也无法来上班,主要负责人找不到,迫使人们在工作场所睡觉,导致解决员工的食宿也成为困难等等。许多企业建立了专项应急预案以解决员工们的需求,其中包括交通、安排饮食、休息等。
不同与数据中心的冗余设备唯一目的便是致力于保护数据中心的故障转移功能,人的因素要复杂得多。冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是当受灾地区是指家里时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训的价值就变得格外清晰了,这将帮助数据中心解决很大的难题。