供电系统的模块化设计与模块化UPS 机房建设
系统模块化是数据中心基础设施设计的重要理念和基本策略,数据中心设计建造中的很多问题都与系统模块化程度有关。模块化以及与之关系紧密的标准化,为数据中心带来了广泛的好处,它不仅简化了从初始规划到日常操作的每一个流程,还显著改进了数据中心商业价值的所有三个主要组成部分 – 可用性、适应性和总拥有成本。模块化UPS是可用性级别最高的模块化系统,引领着数据中心基础设施设计建造的理念和方向。
一、可修复和可快速修复功能是提高系统可用性的关键
现代数据中心基础设施设计和运行的一个最基本也是最重要的要求是系统必须能连续工作。而工作连续性的程度通常是用系统的可用性来描述的。系统可用性A(t)的定义为:电子系统在使用过程中(尤其在不间断连续使用的条件下)可以正常使用的时间与总时间之比。可用性是由可靠性参数MTBF(平均无故障时间)和故障后平均修复时间参数MTTR表示的。
可靠性MTBF愈高,系统的可用性愈高,这是不言而喻的事,但设备的可靠性是有限的,特别是由若干不同功能不同厂家的设备组成的复杂的系统,可靠性很难达到设计要求的水平,使数据中心基础设施特别是供电系统变得很脆弱。于是,设计者和用户很自然的想到必须从系统的可修复和可快速修复上找出路,因为尽管系统和设备的可靠性达不到要求的高度,故障随时都可能发生,但只要系统中的所有设备故障后都是可修复并可快速修复的,故障后平均修复时间MTTR数值很小甚至趋近于零,那末系统的可用性同样可以很高。
可修复和可快速修复成为数据中心用户和设计者在系统设计时追求的首要目标。只要组成系统的所有具备独立功能的子系统,在系统投入运行后都是可拆卸、可移动、可更换的,那末这个系统必然是可修复的。
可快速修复通常指可无工具拆卸和可拔插更换子系统和设备。但是,如果功能相同的两个设备可冗余配置,当一个设备故障停止运行后,另一个与之冗余并机的设备可继续工作而保证系统正常运行,那末,对于整个系统而言,我们可以认为冗余并机环节没有发生造成系统宕机的故障,可靠性很高;也可以认为虽然设备发生故障,但是在修复过程中没有影响整个系统正常运行,修复时间为零。
以上设计理念已在数据中心基础设施用户和设计者中取得了最广泛的共识,并在系统方案设计和建造中取得了广泛的应用和显著的效果。
二、“系统模块化”是可修复和可快速修复的根本条件
我们把具有独立功能,在系统中可整体安装、拆卸、移动、更换的子系统称之为模块,那末上面的设计理念可概括为以下三句话:
1、现代的数据中心要求基础设施必须是一个能连续工作的系统;
2、一个能连续工作的系统必然是可修复和可快速修复的系统;
3、一个可修复和可快速修复的系统,组成该系统的所有子系统必然要具备模块化特征;
模块化即将完整的产品或流程按功能分成小块,即模块。根据上面讲的,模块的特征应该是:
模块是系统中一个具有独立功能和可独立运行的单元;
结构上可整体安装、拆卸、更换、移动;
相同单元可冗余并机运行;
在系统中,根据需要对这些模块进行组装,以产生原始产品/流程的各种变体。以我们很熟悉的手电筒电池为例:可以将不同数量的电池(模块)进行组合,从而获得不同功率的电源。在 IT 设备中,刀片式服务器和 RAID 阵列也是模块化的典型例子 – 将多个设备组合在一起获得不同数量的服务器或不同大小的存储容量。模块无需完全相同:以 Lego™ 积木为例,这些模块在某些方面相同,某些方面却不同,譬如,其颜色、大小和形状各不相同,但连接方式和尺寸均采用标准形式,以便可以将积木(模块)组装成一个集成系统。不同的模块化系统可以根据所需的功能划分目标,将不同数量的相同模块或不同模块(表示不同的标准化级别)并入集成的模块或系统中。
数据中心基础设施是集成了多种功能的复杂系统,需要进行仔细的工程设计,以按照在标准化级别与用户灵活性之间取得最佳平衡的方式进行模块化。系统中存在各种级别的模块化设计的可能性。下面是一些示例:
可互换的 UPS 功率模块和电池模块:在功率、冗余和运行时间方面均实现了可扩展性,而且能够进行热插拔,从而在不需要停止系统运行的条件下进行维修;
标准化的模块化布线:将房间布线细分为行级模块或机架级模块。避免了混乱并易于出错的布线状态,并简化和加速了断开-重新排列-重新连接的流程。模块化配电系统的方式很多,可以采用为整排负载供电的机架大小的模块化设备,也可以采用服务于单个机架的电源插板(机架PDU);
机架级通风装置:将房间气流细分为各机架局部控制,以便对高温区域进行精确制冷。
高密度机架系统:将机架、配电系统和制冷系统集成为一个独立的封闭“空间”,以冷却和隔离发热量密集的 IT 设备。(此时,“模块”指集成的整个系统);
根据模块的特征,在数据中心基础设施中,一根线缆、一台整机UPS或空调机,都是一个模块,但是由于设计时的疏忽,有时它们在系统中却失去了模块化功能:一根线缆可能因为数量多并相互挤压而无法识别和更换,以至于一个老鼠啃坏一条线缆的绝缘就会使系统瘫痪而且不能迅速恢复;一台大型UPS或空调机因走道空间狭窄或搬运工具进不去而不能运出更换;一台装入机柜的变压器故障后因工具无法在机柜内伸展而无法更换等,这些事例屡见不鲜,使具有这种隐患的系统也就不再具备可修复或可快速修复的功能。
这里引伸出的是一个新的概念-系统模块化概念。在一个复杂的系统中,尽管组成系统地所有子系统都是模块化的,但是由于缺乏系统模块化设计,使部分模块失去可更换、可移动的功能,最终使整个系统变成一个不可修复或不可快速修复的系统,可用性大大降低。
“系统模块化设计”已经成为数据中心设计建造必须遵守的原则。模块化使一切事情变得更加便利、更可预测、更为经济、更易于理解以及更加安全。“系统模块化设计”观念在行业中已上升到一个新的高度,成为了一种富有创造性并具突出战略意义的设计哲学。
三、模块化系统的优势
从上面所述可知,模块化系统设计是建造可修复和可快速修复系统的基础,采用标准化结构和连接方式的模块化组件使一切变得更容易、更迅速,且成本更低。从供应商的制造与库存,到设计与工程规划过程,再到客户现场的安装与运营,无不如此。以下几点突显了模块化系统的优势:
模块化系统是可扩展的:模块化的基础设施可以根据当前的 IT 需求进行部署,并且能在以后根据需要添加更多组件。这种“系统规模块化”能力显著降低了总拥有成本;
模块化系统是可更改的:在系统中可通过模块的重新配置,为满足不断变化的 IT 需求提供了极大的灵活性;
模块化系统是可移植的:在安装、升级、重新配置或移动模块化时,独立组件、标准接口以及易于理解的结构既节省了时间又节约了资金;
模块化组件是可替换的:发生故障的模块可以很容易被换下,以便进行升级或修理,而且通常无需停止系统运行;
模块化可提高故障修复的质量:模块的可移植和可插拔特性使得很多工作可以在工厂进行,既包括交货之前(如配电设备的预先布线),也包括交货之后(如电源模块的修理)。从统计学角度上分析,同样的工作,在工厂内完成要比在现场操作的性能降低、降容使用和再故障率低得多,例如,与在现场修复的 UPS 电源模块相比,在工厂修复的模块在引起断电、发生新的故障或无法恢复到满负荷工作状态方面的概率要低上千倍。
模块化是标准化的基础,是标准化不可或缺的基本条件。几乎所有好处都能以某种方式追溯至标准化的两个强大的基础属性:模块化构件结构和提高的人类学习能力,如图1所示。
正是这两个特征产生了遍及整个基础设施的好处,为基础设施的几乎每个方面带来了累积的正面影响。
人类学习-理解的力量:
模块化提高了设备的效率,易于理解性则提高了人的效率。模块化标准化系统在各个层面上使人类的学习更加方便。事物不仅更易于理解,而且可预测性和可重复性也更强,因而发生问题的概率更低,并且当发生问题时更容易识别。
事物越易于理解、可预测性越强,便越容易解释、编制文档、操作、查明问题并修复。这些效应往往互为基础,从而使安装、维护工作可以做到:
减少人为错误:标准化对于人类学习最突出的贡献莫过于减少了数据中心中的人为错误,从标准化模块化组装流程到系统的故障诊断、文档编制、培训等都更加简单、有效,从而使员工更熟练、更不容易出错;
预见问题:对工作原理的了解,再加上此类事物的标准化程序(如设备监控和预测性维护程序),形成了一个足以应对那些“意外”事故的强大防御手段;
提高效率:由于这些学习效果相互影响并互相推动,效率得到了全面提高。员工的知识越全面,在相关问题上所花费时间的利用率就越高。人为错误的减少不但减少了在纠正人为引发问题上所需的时间,而且也减少了答复与此类问题有关的电话帮助热线的时间。使人力资源得到更好地释放和合理使用;
批量生产的优势:部件和流程的标准化模块化使批量生产成为可能,批量生产的优势体现在以下几个方面:成本更低、质量更高、更易于维修、产量更大、交货速度更快。