四招教你走出数据中心硬件维护的黑洞运营维护
在一个稳定运行的数据中心内,硬件维护是一个必要的程序。虽然有时候会很难找到时间执行一些高优先级的任务,更别说一般的例行任务了。但毫无疑问的是,硬件维护是不可忽视的,如果你忽视它,那么就会有更多的麻烦产生,从而被迫执行更多的高优先级任务和例行任务,甚至有时候会因为硬件故障而产生不可避免的损失。为了避免这种情况,最重要的一点是建立一个完善的硬件维护计划和体系,并提高硬件维护计划的可用性。
确定硬件维护计划
第一件事情就是要从根本上重视这一计划,包括硬件维护计划的制定,过程的执行以及硬件维护结果的审查。首先是确定一个硬件维护的计划,选择一个合适的硬件维护公司,这是很重要的。其次,要对硬件维护计划进行必要的支持。
在确定硬件维修计划的过程中,特别要注意的是,一份完善的硬件维护计划应该包含例行的硬件维护和日常的技术支持,以便当数据中心的硬件发生问题时,需要得到及时的解决。如果在凌晨的2点钟,发现硬件的故障却发现合同上并没有显示硬件维护公司有技术支持的义务,这是谁都不希望发生的情况。
避免这种情况的办法之一就是找一个拥有24×7技术支持能力的合作伙伴,另外就是培训自己的相关工作人员,使他们在关键时刻有紧急处理的能力。当然,处理硬件的紧急故障并不是换一换零件那么简单,相应的工作人员最好拥有相匹配的业务水平,这对数据中心来说也是保持稳定运行的一大保障。
数据存储备份
数据存储备份是硬件维护过程中一个比不缺少的环节。无论是自然原因还是人为原因,数据一旦遭到破坏如果恢复不及时的话对数据中心和企业来讲都是一个致命的打击。在一般人脑海里,往往把备份和拷贝等同起来,把备份单纯看作是更换磁带、为磁带编号等一个完全程式化的、单调的操作过程。其实不然,因为除了拷贝外,还包括更重要的内容即管理。备份管理包括备份的可计划性,磁带机的自动化操作、历史记录的保存以及日志记录等。事实上,备份管理是一个全面的概念,它不仅包含制度的制定和磁带的管理,而且还能决定引进备份技术,如备份技术的选择、备份设备的选择、介质的选择乃至软件技术的挑选等。
此外还要注意备份过程中的磁盘磨损问题。在磁盘运行的时候是处于不停转动的时候,如果突然关掉它,会导致磁盘损坏甚至备份失败。
硬件的监控和检测
硬件的监控软件可以让数据中心的工作人员更好的了解设备的工作情况,这些监控包括主板的温度,风扇的转速,磁盘的运行情况等等。由于现在数据中心的服务器越来越多,提供全天候的硬件和网络监控就成了工作人员的责任。通过监控软件可以在硬件发生故障之前就可以提前得到通知,让工作人员有充分的时间采取措施从而避免故障的发生。
在数据中心内大多数系统都有冗余的电源,风扇,磁盘驱动器甚至I/O卡。当冗余的设备发生故障的时候,正常的系统也会出现故障。而一些检测工具是专门针对冗余设备而设计的,它可以轻易的检测出发生故障的冗余设备,这可以帮助工作人员在最短的时间内确定故障从而修复它,从而降低数据中心的停机时间,恢复数据中心的稳定运行。
预防性的硬件维护
由于现在科技和自动化系统的严重依赖,对数据中心运行的连续性要求也越来越高。今天企业在寻求降低成本的方法的时候也在对运行的连续性提出了更高的要求,因为数据中心的运行中断产生的影响越来越大。应此,不管是中小企业还是大型企业来讲,都应该进行硬件维护的预防性实践,以保证数据中心的运行稳定性。
并不是只有在发生故障的时候才能想起硬件维护的重要性,单单日常的例行维护还是不够的。预防性的维护计划能够最大限度的提升设备运行的可靠性和UPS等关键性设备的运行性能。由此可见预防性硬件维护的重要性不言而喻。
在硬件维护计划的执行上,数据中心的相关工作人员应该定期每年,每月甚至每周的检查基础设施,并进行必要的保养。例如,备用电池的充电情况,发电机的燃油水平,电池的电压,发动机的冷却液温度等等,对于一些异常的情况也要及时的关注,如气味的异常,温度的异常,要确定这些情况的产生是否UPS或冷却系统的泄漏。此外,对于上次维护的设备也应该进行检查,如灭火器,自动喷淋系统等等。
硬件维护计划为数据中心的稳定运行提供了可靠性和可用性,对数据中心的重要性也不言而喻。作为数据中心的经理和工作人员,应该认真的执行这一计划,才能保证数据中心稳定的运行。