实践:避免数据中心人为错误导致停机机房建设

2010-12-27    来源:机房360    编辑:小柯
摘要:那该如何缓解人为造成的数据中心停机问题呢?电力技术支持主管AhmadMoshiri说:毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避。下面就是其总结出来的

  摘要:那该如何缓解人为造成的数据中心停机问题呢?电力技术支持主管AhmadMoshiri说:“毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避”。下面就是其总结出来的避免数据中心人为错误导致故障的最佳实践。 

  我们都知道“时间就是金钱”的含义,在数据中心的世界中,这句话也同样的适用。不可避免的是,停机时间可以而且将会发生。它引起了单一用户和工作组的生产力的损失。但有时,停机时间会导致更严重的问题,影响到核心应用,业务流程或整个部门。

  停机开销范围可以从潜在的收入损失到客户受损的声誉和市场,还有技术专家团队解决停机故障的劳动费用。然而,数据中心停机通常是由设备故障,或突发事件的连锁反应引起的,但引起数据中心停机的主要原因是人为失误,据Uptime协会发起的一项研究显示,数据中心大约70%的问题都是人为错误引起的,可见人对于数据中心来说是多么的可怕。

  那该如何缓解这个问题呢?电力技术支持主管AhmadMoshiri说:“毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避”。下面就是其总结出来的避免数据中心人为错误导致故障的最佳实践。

  1、屏蔽紧急关闭按钮紧急关机(EmergencyPowerOff,EPO)按钮一般都位于数据中心门口附近,通常,这些按钮没有盖子或做上标记,在紧急情况下很容易错误地关闭整个数据中心的电力供应,给EPO按钮帖上标签或加装一个盖子,可以避免按钮被意外按下。

  2、根据文档指定的方法操作按照厂商给定的文档一步一步操作,可以减少或消除执行维护任务时的误操作,除此之外,还应该在备份计划中包括突发事件时的应对办法。

  3、正确的组件标签要正确和安全地操作电源系统,所有开关设备必须正确标识,还需要数据中心的单线电路图,确保正确的操作顺序,每执行一个操作前,都应该仔细检查设备的标签有无不妥。

  4、一致的操作方式有时,数据中心管理人员疏于职守,不按照标准操作程序执行,忘记或直接跳过某些步骤,或是凭自己的记忆操作,可能无意中就错误地关闭了某个设备,因此,保持所有操作说明文档不断更新,并严格按照说明进行操作是至关重要的。

  5、不断进行人才培养确保每个人都可以独立进入数据中心,包括IT、应急、保安和设施维护人员,让他们了解与设备相关的基本知识,以免误关电源。

  6、安全访问策略没有数据中心登陆策略的组织安全风险是很大的,特别是外来访问者进入数据中心时需要有人陪伴,要让数据中心管理人员知道谁来了,什么时候离开的。

  7、强制实施食品/饮料政策液体造成的短路是计算机关键部件最大的风险,最好是在门口张贴告示禁止携带任何食品和饮料进入数据中心,并建立起实施监控机制,凡是有违反的情况,一律依据章程进行严惩。

  8、避免污染物恶劣的室内空气质量可能会导致不必要的尘埃粒子和碎片进入服务器和其它IT基础设施,大部分问题可以通过要求进入数据中心的人穿防静电鞋或在数据中心门外放一个垫子得到缓解,此外,安装设备时,应该在数据中心门外进行拆箱,如果将箱子一道搬进数据中心,箱子上的纤维附着在机架和其它IT基础设施上的机会就大大增加了。

1
3