优良数据中心运维体系建设经验谈
2012-06-28 IDCUN 编辑:刘海峰
设计、建造一个完善的数据中心只是数据中心可持续运行的第一步,公司企业、政府部门等数据中心的业主必须能够根据其数据中心风险特性来准确描绘运维需求并设计相应的运维规划。
越来越多数据中心行业从业人员意识到一个残酷的现实:人为操作失误是造成数据中心宕机的头号因素,而非糟糕的设计或施工。越来越多的人开始关注数据中心的运营与维护。设计、建造一个完善的数据中心只是数据中心可持续运行的第一步,公司企业、政府部门等数据中心的业主必须能够根据其数据中心风险特性来准确描绘运维需求并设计相应的运维规划。要做到这一点并不容易,尤其相关的经验和技能对于那些核心业务并非数据中心的公司来说是比较匮乏的。本文将讨论数据中心运维当中应当从哪些方面入手,以帮助大家建立合理的运维体系,确保数据中心的可持续与可靠运行。
运维人员必须参与数据中心设计
如果数据中心设计的人不是最终使用的人,或者在设计阶段使用者的意见没有被充分咨询或征求,很容易造成后期使用过程中额外的修改和改动。实际上,数据中心运维人员在实际运维中经常遭遇这样的情景:使用中发现配电柜没有预留足够的空开位置,造成必要的维护工序无法完成;电池柜的设计安装未预留服务空间;建筑结构设计使得通风装置无法提供所需要的通风量,等等。如果在设计阶段就包括运营评估的环节,那这些问题就可以尽可能地避免。
最有效、最省钱、最高效的数据中心应当采用生命周期总拥有成本(TCO)的方式来规划管理,以平衡投资和运营成本,进而满足业务需求。其中很重要的一步就是根据公司具体业务需求制定设计指标和运营目标。这样,建造的数据中心目的性更强。
不能仅仅依赖数据中心的设计
许多公司认为高级别的冗余设计可以弥补运维预算的不足,但多方的研究证明,关键任务环境下,人为错误是宕机的首要因素。为什么人们还是会忽略运维呢?主要是因为硬件的设计建设是看得见摸得着的,而运营的经验相对来说需要更多的时间积累。所以我们时常看到公司花费大量投资进行硬件建设,而忽略运营规划所需的预算。很多缺乏经验的用户不知从何下手时,往往会把数据中心的运维交给不具备专业知识的第三方管理。比如说,很多数据中心的运维交由办公室建筑维护类公司,而这类公司往往并不具备操作和管理关键设施的技能。最大的区别在于,办公室环境的维护修复是可以离线进行的,而关键设施环境下的维护是以尽可能减少宕机时间为最高信条。
所以无论是基础设施管理还是数据中心运营团队的架构必须围绕着一个目标:最大化正常运行时间。具体而言,与维护传统设施环境相比,维护关键设施环境有特殊的需求。例如,要求连续运营,不许宕机,要求实现冗余系统,发生故障时能主动切换,等等。无疑,满足这些特殊需求的关键在于用正确的方法建立运营体系。
重视人才,重视培训
数据中心环境下,低估人员构成是有风险的,有可能造成紧急情况下无法恢复正常运行。合理安排人员配置,以优化紧急状况响应、设备维护和供应商管理。同样,招聘并保留合适的人员至关重要。招聘具备专业技能的合格员工不是那么容易的,招聘时要通过严格的筛选过程,来验证应聘人员的技术、管理和沟通能力,因为这些技能对数据中心关键设施的运营必不可少。当然,找到合适的人选只是第一步。
招募了优秀人才还要能留住他们。过高的人员流失比例对数据中心里的大多数运营项目造成风险。提供完善的培训和支持,营造良好的职业发展空间可以有效地保留员工。经过系统培训的员工将了解如何安全地操作和维护系统,并知道在出现问题时如何处理。
很多情况下,设备安装调试完成后,设备供应商或总包商会提供相关设备的培训,但这样的培训往往针对具体的设备而很少全面考虑数据中心的整体运营。而接受培训的员工又“言传身教”,“口口相传”地培训其他人,这样的培训方式很容易使一些不正确的方法和流程成为标准化的东西。
因此,我们需要的是一套完整的培训和考核体系,根据掌握的技能将人员按不同资质资格划分,同时提高不同层次人员的业务水准。通常情况下,业务人员水准可分为以下几个层次:
· 在指导监督下的基本操作;
· 进行日常操作及维护;
· 进行高级操作及维护;
· 专业领域专家
糟糕的培训往往是由于没有花足够的时间和经费来开发培训规划。所谓“磨刀不误砍柴工”,很多IT经理们忽略了这样一个简单的道理。良好的培训可以带来正常工作时间的增加、维护成本的节约,以及人员流失的降低,所有这些收益都会远远抵消开发培训规划的成本和努力。
持续不断地演练
任何紧急状况下,数据中心的操作人员都应该象训练有素的救火队员一样从容应对。要做到这一点,关键是持续不断地安排专门时间演练。而且这样的演练需要数据中心所有相关人士的参与,从而令每个人都明确在紧急状况发生时应该做什么。