数据中心机房在线搬迁的规划实施机房建设
[导读]如何控制实施风险,稳妥做好数据中心机房在线搬迁,保障生产系统在机房搬迁期间不中断服务,是科技部门在机房搬迂中要解决的重大难题。
数据中心机房在线搬迁,是在保障信息系统整体完好、连续运行条件下,在有限时间内将正在生产运行的IT设备从原机房拆除、移动、安装到新机房的过程。近年来,随着信息技术的飞速发展,新的IT技术和设备不断投入使用,使得企业的IT系统对机房场地的要求不断提高。因此,对数据中心机房进行在线改造和在线搬迁,成为科技部门需要考虑和应对的工作。如何控制实施风险,稳妥做好数据中心机房在线搬迁,保障生产系统在机房搬迁期间不中断服务,是科技部门在机房搬迂中要解决的重大难题。
在线搬迁的对象,狭义上主要指与生产系统运行相关的IT设备及附属设备,广义上还可能包括UPS、空调、供配电等机房场地设备和办公家具等。机房搬迁实质上需要搬迁两类对象,包括IT设备(计算机设备、网络通信设备、设备机架及其他相关配套设备)等显性对象和IT设备的各类连接(电气连接、网络连接、应用逻辑连接)等隐性对象。
数据中心机房在线搬迁的特点
业务部门对机房搬迁的要求通常是运行时间短暂中断,运行服务能力无损。相应地,机房在线搬迁工作具备以下特点。
(1)实施时间紧迫。运行单位可接受的中断服务时间限定为业务系统营业休息时间,如一个晚上或一个周末。
(2)实施质量要求高。运行单位要求搬迁后各类IT设备均正常工作,搬迁前、后期间,应用系统须连续提供服务。
(3)实施组织难度大。因需拆除、拆分和重新组装,并建立所有设备及连接,对于大中型机房和较复杂的应用系统,常常涉及运行、建设、场地、系统维护、搬运、机房装修等各责任方,参加人员多,实施组织难度大。
数据中心机房在线搬迁风险
机房在线搬迁的风险主要包括以下几种。
(1)管理风险。其表现为“没想到”、“来不及”,组织管理不善,准备不充分,流程考虑不细致,工序衔接不顺畅,时间分配不合理。一旦某一工作环节出现问题,会造成不能按时完成预定工作任务,不能按时恢复生产运行的情况。
(2)技术风险。其表现为“启不来”,“连不上”,原始建设资料残缺、IT设备无法正确组装、连接,搬迁后设备无法启动,更改服务器IP地址后无法建立逻辑/应用连接。
(3)实施风险。其表现为“差一个”,“不小心”,工作细节考虑不够,准备不足,如工具、插头、线缆不够,设备组装、连接不上,实施质量不高,IT设备损坏;电气设施不合格,严重时甚至可能烧坏设备,造成惨重损失。
数据中心机房在线搬迁工作规划
工作规划是控制在线搬迁风险,成功完成工程实施的重要基础。搬迁工作规划主要应包含以下几个方面。
1.人员规划
按照“专业人员做专业工作”的原则,确定参加方、人员专业技术要求,确定现场总指挥,以及拆除、搬运、安装、检查、开机等各工作环节的牵头人和责任人,编制人员组织图,明确责任分工,划分工作界面,登记联系方式。
2.IT设备准备
(1)设备整理。对待搬迁设备列出清单并分类、编号,列明现在位置、供电类型和容量,规划设备搬迁批次。
(2)摆放规划。按机房装修设计方案,分区、分类或分系统规划设备搬迁后的摆放区位、机架、上架位置编号,完成设备布局图、分类摆放图、上架图。
(3)供电核查。以机架为单位计算用电量,按照一般不超过每机柜5kW的原则,调整摆放位置。核实机房配电系统竣工图,检查各用电回路容量、设施类型与规格,确认机柜的供电条件可以得到满足。
(4)网络规划。设计系统网络拓扑图、IP地址空间规划、系统逻辑连接图、设备接线图。接线图应至少包含每台设备的名称、编号、精确位置、IP地址、端口号,以及每个连接的双方名称与端口等信息。
3.搬运准备
(1)货箱规划。根据设备情况确定需要使用的包装箱和货箱的尺寸、个数,分析有无倾斜角度限制。
(2)通道调查。调查电梯、走廊、出入口、斜坡、台阶等的尺寸、承重力,确保通过无障碍。
(3)搬迁车辆。确定车辆的类型、台数和尺寸要求。
4.实施过程准备
(1)工作流程。编制工作流程并与有关方面反复讨论修改,使流程顺畅、无遗漏、可操作。
(2)工作步骤书。编制步骤书,细化流程,明确每个步骤的前提、结束条件、时间要求、责任人、工具等,形成详细步骤书。特别需要注意的是,每个工作环节最好设定为一人执行,另一人复核。
5.技术准备
有些搬迁可能需要更改服务器IP地址。对包含操作系统、中间件、数据库、负载均衡、应用的复杂系统,更改IP地址,重新建立逻辑连接较为繁琐,需要拟定技术方案,编写修改脚本,并严格测试。
6.工具规划
根据工作要求,确定需要使用的网络安装、接线、电气检查、搬运、拆装、清洁等工具、规格和数量,确定提供方和携带保管人员。
7.应急方案
数据中心机房搬迁过程中造成IT设备损坏、不能正常启动、应用服务中断的可能性很大,因此,机房搬迂必须考虑应急处置方案。
(1)应急方案。制定应急工作方案,全面考虑可能发生故障的环节、应对手段和应急回退措施,包括管理流程、技术手段、实施步骤等具体信息。
(2)系统备份。对关键系统、关键业务设备进行系统和业务数据备份。根据不同的条件选择磁带备份、磁盘备份、系统克隆等不同备份策略。对HA架构的应用系统可选择分批搬迁设备,保持业务的连续运行。
(3)对非IT设备,考虑搬迁工程中可能出现的意外情况,需设计应急处置方案,落实处置负责人,准备应急处置需要的物资工具。