当前位置:首页 > 头条相关 > 正文

数据中心业务零中断的终极方案

2013-12-20 D1net 编辑:harbor

  业务零中断是对数据中心的最高要求,而数据中心从运营开始到生命周期结束要做到业务零中断几乎是不可能完成的任务。但是,我们可以通过各种完善的技术来将中断的次数、时长控制在最少,本文将提供一些通用技术来确保数据中心业务实现零中断。

  俗话说“不要将鸡蛋放到一个篮子里”,为了防止数据中心遇到一些无法预知的自然灾害,所以数据中心应该在多地进行建设,实现多活数据中心。可以通过软件自动切换技术,当一个数据中心出现故障时,访问数据中心的流量可以自动切换到其它数据中心上,确保业务不受影响。多活的数据中心之间具备类似的应用环境,在正常时,访问数据中心的流量在各地数据中心之间实现均衡分流,一旦其中的某个数据中心停止工作,其它的数据中心可以立即接管业务,一般多活数据中心会预留20%的带宽,以便出现这种情况时,仍可以正常工作。

  在一个数据中心的内部,硬件设备可以考虑备份,所有设备采用双路供电,一路市电,一路自有供电(应急电源、UPS供电)。当出现一路供电出现问题时,设备仍可以正常运行。通过UPS供电,一路供电故障时,设备供电可以立即切换到备用电路上,精度高的UPS断电时间再10MS之内,业务完全不会感知。空调设备是数据中心机房温湿度的提供者,一旦出现故障可能导致所有设备无法按照规定温度运行,引发业务中断。按照我们《电子信息系统机房设计规范》(GB 50174-2008),数据中心可以分为A、B、C三级,一般C级机房不强制要求有空调备份,但是A和B级一般都要求空调有备份,即在空调故障时有备用空调系统可以启动使用。

  数据中心的所有服务器启动双网卡主备、负载分担或者集群功能,通过集群功能,多台服务器可以虚拟出一个IP和MAC,多台服务器充当一台设备进行业务处理。如果其中的一、两台设备出现故障,并不会对上层业务造成任何影响,应用业务不会感知到这种故障。同样网络设备也可以通过虚拟化实现多台设备虚拟成为一台设备,这样当一台出现故障,业务平滑过渡到另外的几台设备上,从而达到业务零中断。对于一台网络设备,一旦发生故障,将对整个数据中心的业务造成影响。因此网络设备一般都采用双电源、双引擎、多网板、跨板多端口聚合物理链路、二层启用TRILL协议、三层使能等价路由等方式从软、硬件方面进行全方位的备份,从而确保单台网络设备运行稳定。

  存储设备可以通过卷管理技术,实现多台阵列数据同时写入,数据绝对零丢失。一旦发生故障,正常工作的阵列会记录从中断开始的所有操作日志,修复后数据从正常阵列增量同步到故障阵列,对系统影响极小。存储设备进行系统维护、软件升级、硬件更换等都不需要申请停机时间,可以平滑升级。灾难发生时,无需人工干预,正常的主机无缝接管业务,由正常的设备承担所有业务,实现业务零中断。

  在对数据中心设备进行软件升级时,可以先将应用业务切换到其它数据中心,然后对设备进行重启,完成软件升级。在某些情况下,这种操作动作较大,所以数据中心要求绝大部分设备都能支持在线升级,即在不影响业务的情况下,完成软件升级。现在的大部分设备都支持带业务软件升级、打补丁。在不影响业务的前提下,完成对数据中心设备的升级。

当需要对数据中心进行扩容、搬家时,也可以做到业务零中断。这时的双活/多活数据中心发挥了重要作用,只有将业务切换到其它运行的数据中心上,然后才能对某个数据中心进行扩容或搬家。当扩容、搬家完毕,完成新系统的调试后,再将业务切回。从而确保业务不受到影响。

  数据中心的安全是一个世界性的话题,就算我们的冗余、备份做的再好,一旦数据中心受到攻击,仍会出现冗余备份机制没有启动,业务中断的情况。很多软件冗余是要通过软件的运行状态去判断的,所以有时很难区分是正常的业务还是攻击的流量,检查过严易出现误判,检查过松业务受到攻击。因此,如果有效地防止攻击已经成为数据中心的重要话题之一。为了防止数据中心受到破坏和攻击,就需要加强数据中心的安全。构建以网络层和应用层密码保护为主体的网络信息加密传输和安全应用的密码保护措施。构建以身份认证、授权管理、责任认定为主要内容的安全体系。构建服务器、PC机、操作系统、数据库管理系统等主机系统安全防护和密码保障。增加信息加密、身份认证、数字签名、访问控制和授权管理,对访问数据中心进行严格管理和控制。

  数据中心的故障有70%是人为操作引起的,很多人为操作故障都是因为人的经验不足,对系统的了解不够深入所致,所以数据中心应该加强对人的管理,减少人为操作故障。数据中心建设的再完善,冗余工作做的再好,但如果管理的人总是犯一些低级错误,也会导致数据中心故障。提升数据中心人员的技能水平,对数据中心的操作进行严格管理,在操作之前进行充分评估,分析可能给数据中心带来的影响。对操作的权限进行严格管理,不同级别的人员拥有不同的操作权限。

  虽然通过各种各样的冗余、备份技术可以使得数据中心业务不间断。但过渡的备份会大大增加数据中心运营成本。实际上,数据中心故障并不是天天出现,所以应该根据自身业务的实际情况,引入一些必要的解决方案。对于一些不可预知、极小发生概念的故障,可以考虑不做冗余,这完全取决于数据中心本身,可以为数据中心节省成本。所以数据中心要把握好业务不中断的“度”,选择适合自己发展解决方案。

大家都爱看
查看更多热点新闻