谈数据中心供电系统的运维运营维护
[导读]数据中心供电系统的可靠性是至关重要的。可以想见,无论IT设备多么精密、系统的功能多么优越、可靠性多么高,一旦停电,再好的系统也无法运转。
一、运维的目的
数据中心供电系统的可靠性是至关重要的。可以想见,无论IT设备多么精密、系统的功能多么优越、可靠性多么高,一旦停电,再好的系统也无法运转。所以对运行中设备维护保养的重要性不可忽视,可见维保人员肩上的担子是很重的。
二、运维的任务和无法解决的问题
为了保障供电系统的可靠运行,有很多地方都制定了很多很好的措施。但即使如此也有很多漏洞。设备出厂后的可靠性就已确定,比如有的先天不足,像有的电源输出隔离变压器绕组用铝漆包线代替了电缆铜漆包线,在满载运行时十有八九是要出事的…不过由于设备本身的质量问题而导致的故障统计表明不足30%,70%的故障来自后天。也即是认为故障,其表现如下:
1.选型不当导致的故障
选型不当的原因有很多,主要表现在:
(1)基本概念不清,易受厂家误导。比如某高速公路招标UPS,在标书中要求UPS要具有输入断一相或两相后电池不放电,还能继续供电的能力。因为有的厂家标榜他的UPS在输入断一相后电池不放电,UPS还有50%的供电能力;输入断两相后电池仍不放电,UPS还有25%的供电能力,延长了电池的使用寿命。用户就认为这个性能好,稍动脑筋不难发现其弊病:若想享受其优点必须购买4倍于负载容量的UPS,否则断一相后就带不动当前的负载了。话又说回来,如果UPS断的是输入开关后面的两条线怎么办?还修不修?何时修?是否完全断电后才能修?等等这一系列问题如何解决。如果用户真的按负载世纪容量购买了这样的UPS,这就是莫大的隐患,这是靠运维解决不了的问题。
(2)不便说明的原因。比如有的用户从上个世纪就开始使用某品牌的机器,当时由于客观原因尽管输入功率因数低、效率低、体积大、耗电多和价格贵而无法也不便解决。现在比原来机型优越的多的新机型早已问世,比如新型的高频机结构UPS每一百千瓦每年要比原来工频机机结构的UPS节约5万度电,而这个几兆瓦容量的机房每年就可节约几百万度电。但由于某种原因,硬是放着节能设备不选而仍将那种耗能的机器写入标书,这样做还怕不保险,还把那种机器的结构特点写入标书。这不但增加了空调设备的投资和占地面积,无疑也为今后的运行埋下了隐患。这又是运维中无法解决的问题。
(3)追求低价格。有的用户认为UPS都一样,所以就追求低价格,结果导致故障。比如某高速公路指挥部贪图便宜,第一天装机,第二天就起火;某人寿保险公司低价格购进的机器,不到半年因UPS故障而烧毁几乎所有IT设备的输入电路,导致系统瘫痪;又如某多台UPS并联的兆瓦级数据中心,装机没有几个月因其中一台UPS中的一个逆变器功率管击穿而导致所有UPS跳闸…
2.使用环境不当故障导致的故障
不按说明书上对环境的要求放置机器,甚至有的将UPS放在随便穿行的走廊、滴水的地下室。比如几台200kVA的UPS放在了屋顶只有一层预制板的平房,空调只是两台5P的舒适空调机,又如一个玻璃厂竟将UPS放在粉末飞扬的厂房内,等等。导致了频繁故障。
3.制度不健全导致的故障
比如有的值班人员随便将电炉子、电饭煲和吸尘器接在UPS上,导致过载跳闸;有的值班人员的食物引来老鼠钻入机器而导致起火…
4.交接故障
这类故障主要是由于管理人员的前后不是一拨人或配合不好造成。比如某火车站售票系统,前面值机人员由于移动机器位置而将UPS的外接电池组断开,事后又未向后来者交代,结果造成了市电和UPS同时停电的故障…
5.经验故障
经验是不可缺少的,是不可多得的财富。但经验有其相对性,即在某种UPS上得到的经验不一定完全适合另一种UPS,否则就会导致故障。某电信局由于不看说明书而用同样的方法启动另一品牌机器导致逆变器烧毁。
6.失察故障
一些器件在运行中会出现老化或早期失效,如不及时检查发现就会导致故障。这些在自动监控中是无法发现的。比如因老化而开始弯曲的保险丝,电池结构螺丝的松动,电池长时间放点后使电池壳有微细的裂缝等,如不及时发现或发现后没有及时处理都可造成故障。
7.仓促上阵导致的故障
搞维修保养来不得半点急躁,要考虑周全后再动手。某公司工程师要对一用户正在运行的UPS进行检修,按照规定要用维修旁路开关将UPS退出后再检修,但按照程序需先启动自动旁路,而后再合维修旁路的闸刀。也许该工程是还有其他急事要办,进机房后未经考虑就闭合了维修旁路闸刀,结果造成逆变器功率管爆炸。
8.维护不当导致的二次故障
对UPS的定期维护是必要的,但应有一套严格的管理程序。那些不负责任、不按规定要求进行定期或不定期保养是导致机器故障的重要原因。另外,在维护保养时也可导致故障,比如用万用表探针测量电路板电位时,探针将两点短路导致故障。一用户作电池放电时,将
将电池从UPS上摘下,放电后将电池接回时机型解放,导致电流爆炸。
又如一工程师在更换离心风机时不小心活动扳手一打滑打在了控制板上,当时没有在意,风机换好后不能开机,检查发现一条器件退被打断了…
9.静电导致的故障
某机房按例停机保养,但保养后却无法开机。检查后发现一个组件电压击穿,回忆为保过程发现该控制板用塑料牙刷扫过灰尘。塑料在干燥器件的表面可产生几千伏的摩擦静电电压,由于机器内小信号电路使用了一些MOS器件,这些器件耐压很低而且最怕静电。经测量一个普通塑料袋,用电路板摩擦以下就可产生3000V的静电电压。所以在检查这些电路板时最好手腕上要讨一个接地环。
10.过分自信导致的故障
做事情自信是成功的基础,但过分自信有时就会出错。比如某国际银行在UPS运行了8年后就应该更新设备,厂家也多次提醒。由于该UPS8年来很少出问题,所以用户负责人屡次回答“不用更新”,结构几个月后该UPS因老化故障而停止供电两小时,导致全球业务也中断两小时,损失很大。
根据国际上的统计资料,5年标称的电池服务寿命最多不超过3年。在平时不保养的情况下,一般2年就应该更换。某飞机场候机厅电池原配4h,3年后人不更换,一次外电网停电,UPS后备时间只剩4h,由于停电造成了损失…
像类似的人为故障现象还有很多,就不一一例举了。
归根到底,电源系统的选型是第一关,这一道关把不住首先就种下了隐患的种子。电源系统的连接是第二关,有了好的设备,如果没有好的连接方案,也会埋下隐患。某电视台由于连接方案被厂家误导。十几套节目的供电UPS故障接连不断,而且大都是有惊无险,一连几年都是这样,使维保人员提心吊胆、伤透了脑筋。连接方案是一个工程,不是维保人员左右的了的。无奈只好在重大活动和节日令厂家工程师前来值班。这又有什么用呢!厂家的工程师到此也只能是给用户心理上以安慰。该告警的时候照样告警,只求上帝保佑不要停电!