数据中心冷却:CRAC单元维护实战运营维护

2012-02-14    来源:TT中国    
在我们深入此文之前,请注意一点,所有类型的机房空调都被称为CRAC,但从专业角度来说,冷却水机组算是机房空气处理器(CRAH)。

本文将介绍数据中心冷却关于维护CRAC的一些最佳实践。在我们深入此文之前,请注意一点,所有类型的机房空调都被称为CRAC,但从专业角度来说,冷却水机组算是机房空气处理器(CRAH)。

不要为数据中心冷却模块留下遗憾

冷却模块一直都是现代数据中心十分关键的一部分,而如何维护用来实现冷却的CRAC单元则更是重中之重。在冷却设备上的巨额投资,以及维持设施所需的计算机控制资源,都应该确保与预防故障产生,但事实上并非如此。最近我们为了追求能源利用率而试图将每件物品划分至“合适大小”,这将使得每个设备都更明确并减少故障率。尽管如此,设备增加都有自己的界限范围,大家也对需要关闭设备才能进行的预防性维护存有顾虑。更糟糕的是,维护合同通常被视为过于昂贵,甚至若干年后的费用总和可以用来更换一套全新的CRAC单元。另外,CRAC服务通常是设施相关人员进行操作,没有检查清单说明哪些内容需要确认,调整或替换,也没有检测周期。简而言之,与相对简单的维护电话不同,如果没有完善的预防性措施或完全没有进行维护,冷却失效可能成为主要维护关机的故障源。

警惕故意冷却关机的设置

让我们首先纠正对短期内温度升高的过度关注。ASHRAETC9.9在2008年扩大了温度限定范围,确定设备可以在27摄氏度(80.6华氏度)的环境下正常工作,而且可以在32摄氏度(89.6华氏度)的情况下持续工作数天,不影响设备或保修情况。这些参数已经被所有主要硬件制造商所接受。尽管如此,大部门数据中心依旧将冷却设置为比实际需求还要低的温度上。事实上,即使冷却机组已经达到临界或没有冗余设备,独立的CRAC单元依旧可以被关闭数小时来进行完善的预防性维护,这不会使数据中心温度超出限制。在某天关闭冷却系统几小时不会使整个数据中心温度发生急剧变化,这远比因故障失去整个CRAC单元而在一年中最热的时候让机房运行在没有空调的情况下,持续数日甚至数周要强得多。ASHRAE同样定义了“温度升高比例”限制,我们会在其他篇章中介绍。如果维护关机使得温度上升速度高于ASHARE建议值,此迹象说明你需要考虑进行专业的冷却评估。

当我们讨论运行参数时,不可忘记冷却维护中最容易被忽视的项目--设置点。所有的空调都应该进行检查以确认它们保持着相同的温度与湿度级别,当然如果所有设备可以直接显示相关读数,那就更好了。如果各单元的设置点不同,那么空调可能互相竞争,耗费大量能源实际却降低了制冷效果。根据实验结果调整传感器放置位置同样可以帮助实现统一控制的效果。一个通常被忽略的事实是,工厂的地点不一定是最好的。随着时间推移,温度或湿度同样会因为传感器故障或设备安装模式变化而有所变化,这使得单元无法有效维护良好的环境。可以考虑根据ASHARE的指导手册来增加设置点,但需要确保可根据ASHARE限制来调整服务器进口温度,保证其不超出进气口最高温度限制。这样可以提升冷却效率并降低空调设备损耗。

CRAC单元维护因包括哪些方面

维护CRAC单元最重要的任务便是更换过滤器。脏过滤器会增加电机负担并降低冷却能力。如果过滤器在替换时发现比预期的还要脏,那么因该从源头查找问题原因。灰尘颗粒同样会堆积在计算机硬件过滤器或散热片上,提高内部温度。最常见的污染源是在数据中心内存储物品或对箱子进行拆封,此类行为是绝对不允许在数据中心内操作的。

机械设备养护

需要养护的机械设备取决于所选CRAC单元的类型,但如果有涉及到皮带,它们的松紧需要调整至适当程度。皮带伸展长度与与出厂参数需要维护。设置过紧会导致皮带与轴承承担不必要的负担,而设置过松会导致滑动并降低性能。自动张紧皮带已经问世5年多了,但逐年替换其他皮带可能是比较好的经验法则。在任何情况下,应该根据产商建议的期限更换皮带,及时它们看起来还工作的很好。检查电机支架与滑轮组松紧程度同样重要。当然做任何事情,加些润滑油总是有好处的,但需要注意不要因添加过度而引起漏油或飞溅。干净的机械系统通常会运行的比较稳定与持久。

经常被忽视的问题还包括异常声响。运维人员应当注意声音变化情况,此种变化可能是对某些问题的告警,虽然此种变化可能是间歇性或缓慢持续,但应加以重视,形成习惯。维护技术可能无法发现此类问题,但也不能因此而忽略,它们通常都是大麻烦的前兆。

1
3