减少人为错误 数据中心六不是绿色数据中心
数据中心最佳实践和安全准则经常被忽视,得不到有效的执行。
虽然让现代数据中心遵从设计和运维最佳实践指导已经够让人头疼了,但为了维护服务的可靠性,各种设备都必须受到妥善的保养才行。坚持良好的操作规范和数据中心养护计划,才能更好地实现投资的全部价值,如果数据中心通过了类似 Uptime Institute或者TIA的专业机构认证,则这种价值更加显著。
数据中心内部的设备和工作人员都会面临潜在的风险。良好的维护、编写操作规程、定期培训,严格遵从规则,这些措施能防止工作人员受到伤害,避免服务中断,延长设备使用寿命和可靠性。例如,培训课程应包括灭火设备的地点和正确使用方法;维修保养计划应包括检验灭火器压力指示是否正常。
我们采访了一些SearchDataCenter的读者,询问他们在多年的经历中遇到过哪些不安全的数据中心操作行为。这篇文章记录了他们的回答,您也可以在最后跟帖分享您的想法。
数据中心不是自助餐厅
食品和饮料应该禁止带入数据中心。这项禁令应该严格执行,违反者直接开除!
数据中心不是跨栏训练场
美国职业安全与健康管理局规定,在地板砖上的孔必须妥善遮盖,或者在开口周围使用安全锥或者临时警戒护栏进行保护。任何时候地面上被拆除的相邻地板砖不得超过4个。这些最佳实践原则可以防止人员落入孔洞而受伤,减少冷却空气通过开口的损失量,并确保地板结构的稳定性。
地板砖的移动操作必须使用稳固的地板吸盘工具,同时小心地板的堆码,防止绊倒别人。进行任何操作时务必使用正确的工具,安全第一,以合适的手段加工材料;工作人员还能让工作完成得更有效率。
数据中心不是衣柜
将设备放入计算区域内的操作过程会带来微粒污染,特别是设备包装箱。打开盒子或拆箱设备会释放严重的污染,污染颗粒会堵塞过滤器和散热片,使计算机硬件的工作温度升高,导致设备加速和提前报废。包装纸和纸板也是火灾的主要燃料。
“数据中心里面最大的麻烦来自哪里?机架内凌乱的电缆。如果有一条线被门夹了,恐怕你很难找到故障的原因。”
电缆安装时在地板绷紧后也有绊倒人的危险。在这些电缆跨楼层拉动时,它们也会搅动灰尘或堆积污垢。也有人会用湿布握持电缆来擦除表面的一些污垢。电缆穿过的孔洞应该封死。地面上的剩余电缆长度永远不要超过实际需要,在放假和过夜前必须予以整理纠正。
经常用湿布清洁数据中心地板表面。入口处的擦脚踏垫应定期更换。良好的维护习惯也应该包括每年请专业的数据中心的清洁公司进行大扫除。如果你的数据中心有地板松动了,正好借此机会把它重新摆平;不平整的地板会泄露宝贵的制冷空气,并增加绊倒行人的危险。
在移动或新装机架机柜时,管理者应落实安全检查,确保设备安装稳固。这对于处于地震带区域的任何数据中心尤为关键。在活动地板上垫放几层0.25英寸厚的绝缘纤维板可以防止地板被擦伤压坏,特别是当机柜装满设备时。机柜内安装的设备重量不得超出其技术规定。请记住,装有设备的机柜在搬动中可能会因为头重脚轻而翻倒——尤其是在倾斜失控的情况下。带孔的透气地板更容易被带轮子的负荷压坏,有时这些负荷甚至还没有轮子保护。
数据中心既不是健身房也不是桑拿室
搬动和安装服务器时,请记得使用服务器升降工具。工具可以防止你不小心摔坏一台昂贵的服务器或者网络交换机,还能减少员工受伤的风险。对于设备安装工作,机械挺杆也更快,更高效。
Robert McFarlane 表示:“女性工作人员的长头发很可能会被卷入运行中的服务器风扇,导致服务器停机,同时也让她自己受伤。在操作后及时将设备的盖子盖回去就可以简单地避免这类意外的发生。”
良好的散热是维持设备可靠性的必要条件,与专业维护公司签订维保合同也仅是个开端。在数据中心的维护检查中,管理者们应该四处巡视确认机柜内未使用的空间是否正确装上了盲板。您的维保单位也应该检查空调的过滤器是否被灰尘堵塞,而不只是检查计算设备中的过滤器和散热器。要经常对这些过滤器进行例行的清洁或更换。温度和湿度指示设备每年都要至少校准一次。对于使用冷廊气流遏制系统的设施,一定要校准气差压传感器。同时也别忘了定期测试所有的空调监测系统,以确保警报功能工作正常。
在寒冷的气候条件下,重要的是要检查冷却塔里的除霜加热器和辅助加热管。冷却塔的视频监控画面可以让设备维护人员及时发现冻结警报,防止出现进一步的严重后果。
数据中心不是党委会
别忘了让你的工作人员远离受到噪声的伤害。冷却设备和服务器的风扇都会发出巨大的噪音。提醒、甚至要求员工使用听力保护装置,并让这些装备存放在大家都易于取用的地方,同时指示装备的存放位置以及使用方法。
在数据中心用电方面,最重要的最佳实践是维持负载均衡。负载不平衡不仅会降低能源利用率,还会导致不间断电源(UPS)错误地发出超载警报,引起不必要的设备更换。大型UPS系统都会提供三相电源输出,今天的许多机架和机柜会利用到其中两相或者所有三相回路。应该定期检查供电链路上每个节点的用电量:机架和机柜,电源分配单元,最后汇聚在UPS。保持负载均衡将使UPS能在最高效率条件下输出最大功率。
监视和优化电源平衡的最好方法是在每个机柜使用带功率测量的插座,最好是再加上远程读取功能,以及采用数据中心基础设施管理工具软件来跟踪电力消耗情况。所有电源面板和线路都应加上明确的标识来避免错误的开关操作。记得使用大字体,彩色编码标签!
电池老化是UPS的故障的最常见原因。应该花钱买一套靠谱的电池监控系统。电池通常容易在发生停电和负载需求突然增长的时候爆发故障——让你雪上加霜。通常的首选电池是用阀控铅酸(VRLA)类型,因为它们不像最常见的浸没型铅酸电池那样需要专门的电池房间。但如果外部电源不稳定导致电池频繁放电,阀控式密封铅酸蓄电池的10年预期寿命可能变成三年——甚至更短。良好的监控管理可以发现即将失效的电池组,让你有机会及时补救。由于能够识别出需要更换的电池个体,防止它坏掉一锅粥,整个电池串联组的寿命也总体上延长了。
如果您使用淹没铅酸蓄电池,那么一定要定期检查所有安全设备,包括氢气探测器、眼睛冲洗剂、喷淋装置和报警器。安全系统内任何设备的动作都会自动向安全管理点发送提醒。
数据中心不是玩泥巴
电气工作必须由持有执照的电工来完成,但至关重要的是,在数据中心工作的任何人都应该懂得电脑操作应细心谨慎,并了解操作正在运行中的生产环境的风险。
数据中心中的电气系统每年都应该用红外热感应设备(IR)扫描一次,及时发现和排除由于连接松动导致的过热和故障。对于新的电气设备,要求设置供红外扫描检查用的窗口,这样就可以不用打开面板进行检查。还应对需防止电弧闪光危险的电气系统进行明确标记。如果没有专门的保护措施就打开大电流设备的外壳是非常危险的。数据中心内熟悉这方面的工作的人应该知道这些注意事项;小风险远远大于具有预防火灾或意外关闭。
对于既重要又可怕的紧急断电(EPO)开关,一定要做好标识,并使用盖子保护起来,最好加上警报喇叭。这些警报装置通常需要电池供电,所以及时应更换电池,同时——千万小心别激活EPO关掉整个数据中心!
良好的发电机保养很重要。发电机故障的两种最常见的原因是启动电池掉电和燃料污染。在天气冷的时候应检查缸体加热器的功能是否正常。
凡是和水有关的地方都应定期检查,我指的可不只是喷淋管。地面排水沟可能会干裂或者会堵塞。位于风暴和洪水多发区域的数据中心的排水系统应该有后备冗余。空调冷凝水排水管应该和液位检测器一起检测。寻找屋顶漏水的裂缝和任何其它在数据中心高处的漏水隐患。如果你有预作用或气基灭火系统,它应该由具备完全资质的供应商执行定期维护计划,确保不会在检查过程中误将灭火功能关掉。
以上这些都是有关数据中心设施运行和维护计划应该留意哪些问题的一个范例——建议和你自己的维护计划对比一下,进行必要的改进。如果你的数据中心还没有专门的维护制度来指导操作,那就参照这些清单编一个,然后安排解决清单上的每一项问题。