如何利用ITIL来提高数据中心效率?数据应用
乍一看,把ITIL(信息技术基础设施库)和能量效率放在一起讨论好像有点荒谬。ITIL是一套关于IT管理以及变更管理、问题管理、资产和容量管理等的最佳做法。企业在推出新应用、进行维护、安装服务器、虚拟化以及对故障和威胁做出响应时,ITIL为企业提供了一系列确保高可用性和高可靠性的方法。
从另外一个方面来看,ITIL还是IT文化的门道。它提供了一种员工可以使用的IT语言。这就是ITIL的意义之所在。如果能够将ITIL语言和框架应用到数据中心的各个方面,包括IT部门和设备部门,那么它将有助于IT部门与设备部门的沟通,消除IT与设备之间的隔膜。
IT注重的是旧应用的维护和新应用的推出,确保变更和问题不会中断服务。所以,IT部门可能不会意识到耗电功率、冷却或房屋空间已达到最大限制,除非问题已经出现了。另一方面,设备组通常会非常注意电力、空间和冷却等方面的问题。
对于一个IT部门与设备部门沟通不够的企业,通常会出现二者相互抱怨的情况。供电不足了IT部门抱怨设备组,设备组则回击说IT组从来都懒得过问一下。如果两个团队都不相互沟通一些最最重要的资源问题,数据中心效率又从何谈起呢?
IT组与设备组的隔膜一而再、再而三地被称作是实现数据中心高效率的绊脚石。据McKinsey报告(《数据中心效率的变革》)称,只有将设备划分到CIO的管辖范围,让IT部门直接负责数据中心的能耗账单,数据中心效率问题才可能得以解决。目前,IT设备的能耗问题根本不是CIO考虑的最首要问题。
ITIL最佳做法为数据中心提供了一个框架体系,这个框架体系可以拉近IT组与设备组的距离,促进它们有效沟通、齐心协力提高数据中心效率。下面,我们将具体地讨论ITIL中的变更管理和容量管理这两个部分。
基于ITIL的变更管理与设备
变更管理过程是关乎IT部门的生死存亡的事情。如果这些过程运作的不好,导致的冲突和停机将可能结束IT经理们的职业生涯。
其实,设备组也会用到变更管理。在ITIL变更管理最佳做法体系内,这些共用的经验技能可以收到很大效果。例如,大多数IT部门通常会召开变更会议以确保请求的变更不会引起故障或停机。在这样的会议中通常不会提及设备。但是,试想一下,如果设备组也有人参加,会有什么好处呢?如下是设备组可以在会议中提上桌面的一些问题:
提议的变更是否与UPS设备、继电器或冷却设备等的维护有重叠部分?风险会不会太大? 有没有足够的空间和电源来支持提议中需要安装的设备?供电和冷却会不会受到影响? 以目前的消耗速度,机房空间、冷却能力或供电能力何时会达到极限? 这些实实在在的变更管理问题只有通过共同的语言和清楚的度量才能得到有效的沟通。设备组应该利用这门共同的语言来提出这些重要但经常被忽略的问题。
设备维护日程安排 可用的电能、空间和冷却能力 IT消耗电能、空间和冷却能力的速度 以目前的消耗速度,容量使用的极限 以目前的消耗速度,电能、空间和冷却成本(总体拥有成本) 这些度量不仅有利于更清晰全面的认识变更问题,还可以让大家更全面的了解数据中心操作和成本的总体情况。
基于ITIL的容量管理与设备
容量管理是ITIL中的一个重要部分,它确保了计算能力能够满足未来的业务需求,而且保证了成本利用的高效性。容量管理需要对资源消耗速度有所了解,分析可能发生的需求和服务变更,以及计算能力、内存、网络和存储等可能出现的变更。此外,容量管理还涉及到容量扩展的投资规划和说明。
在IT组来看,容量往往是指吞吐量、每分钟事务处理、IT负载等等。IT设备能够完成多少任务?完成速度有多快呢?系统如何有效地迁移到新应用中以便添加新的服务?IT如何安装大量新服务器(可能密度比以往更大)以维持需求的服务等级?如果从X厂商的硬件迁移到Y厂商的硬件上,会不会有一些的成本节省?所有这些IT容量问题(通常也称作IT架构)都需要足够的关键设备基础设施作为保障,即数据中心的能源、冷却和空间。
这是IT组与设备组可以沟通的另一个方面。通过这些问题的沟通,可以更全面地了解数据中心运行情况,寻求提高数据中心效率的契机。说的直白一些,就是设备组要提供IT组需要的电源功率。由于设备组管理的是数据中心的机械系统,所以拥有关于数据中心容量的关键信息。而数据中心容量又会直接影响到IT设备的容量。更换硬件厂商会不会加快IT消耗速度?新服务器是否适合机架?同样,设备组的参与会有很大的好处。
设备组参与ITIL的实用步骤
对于大多数企业来说,最好的办法是设备组通过ITIL最佳做法主动与IT组进行沟通。
设备人员如何参与到与IT组的讨论中呢?下面是介绍了一些实用步骤:
了解IT组支持的主要业务应用(POS、在线销售、在线预定等)以及IT与设备交叉的地方。 利用ITIL术语与IT进行每周沟通。 参与变更会议并提出自己期望的变更安排,以便避免冲突。 制定一些度量标准,将设备服务转化称可用性和可靠性指标。 了解是谁掌管IT的容量规划以及如何与他接洽。 利用ITIL最佳做法构建共同点。变更管理与容量管理是相似的,都可以与能量效率措施挂上联系。 为变更管理流程提供关于数据中心容量的信息(IT消耗空间、电能和冷却容量的速度、可用容量、扩展极限)。了解如何为变更管理数据库贡献一份力量。 通过设备记录卡,设备组可以记录性能,然后在与IT交流时可以谈它对数据中心总体可用性和可靠性的贡献。设备记录卡可以涵盖如下一些方面:
财务状况
年度开支对比 每月费用 UPS/冷却成本 特定成本
流程
严重问题数量
根本原因分析
容量更新表,包括IT消耗速度
性能
平均修理时间(MTTR)
平均谷中时间
可用性
节省和最近丢失、效用失败、泵故障和天气
项目/规划
UPS维护(注明具体时间)
uCode更新(注明具体时间)
AC季度维护
定期的继电器测试(注明具体时间)
记录卡上与IT有直接联系的所有信息都能增进IT组的信息了解情况,提高深入讨论的可能性。这些信息还有可能提高讨论效率,扩展容量。