莫忽视数据中心的可靠性
2015-06-05 D1Net 编辑:佚名
历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。
保持业务全年无中断运行是最能体现数据中心能力的一方面。现在的数据中心系统组成复杂,要确保没有故障出现,几乎不可能。每年都会有很多著名的大型互联网公司被爆出其数据中心出现故障,有的业务甚至要数个小时才能恢复,这给数据中心的业务带来了严重的损失。所以,重视数据中心运行的高可靠性显得至关重要。
曾经的马来西亚航空公司也是受人尊敬的航空公司之一,然而最近两年出了两次的重大坠机事故后,竟然面临着关门的境地。对于数据中心也是一样,以前没有出过故障,并不代表以后都不会出,一旦出现一次严重的业务中断,对数据中心业务的影响就是多方面的,不仅仅是金钱上的损失,还有数据中心承载业务的声誉。一旦人们认为这个业务是不稳定的,有风险的,人们宁愿弃之不用,在科技如此发达的今天,没有什么业务是不可替代的,或者找不到替代品,数据中心能否提供持续稳定的业务运行至关重要。最近,显然发生了不少数据中心故障,影响面都比较广,真可以称得上是“黑色五月”了。5月11日,网易因骨干网络遭受攻击,导致了网易旗下部分服务暂时无法正常使用,当时还传言是网易广州大楼发生爆炸,导致其旗下多款游戏无法登陆,不过后来证实的确是谣传。紧接着5月27日,支付宝因为杭州市萧山光纤被挖断,也出现了用户无法正常使用的问题。这起事故,导致全国许多地方的用户都无法使用支付宝,直到两个小时后才恢复正常。然后是5月28日,携程网因为部分服务器受到不明攻击,导致官方网站及APP暂时无法正常使用,携程网主页里的二级页面无法打开,这造成了携程网业务损失一百多万。这类数据中心故障在不断地上演着,虽然故障已经恢复,但是却留给了我们深深的思考。
数据中心这几年发展非常火爆,各地都是新建或扩建数据中心,在数据中心设计上应该更加考虑运行的可靠性、冗余性的设计。如果数据中心三天两头地故障,拥有再多的服务器,拥有再好的网络也是白费,没有人愿意使用一个总也不稳定的业务系统。如果动不动网页就无法访问,动不动自己的保密信息就出现了丢失,这些故障对于数据中心都是致命性的。我们通常用五个九,即99.999%,来衡量一个数据中心的可靠性,如表1定义了数据中心的可靠性级别,数字9越多代表数据中心的可靠性越高:
数据中心属于哪个级别的,主要是基于过去数据中心运行的数据得到的,所以不能代表以后。也许一个数据中心以前从来没有出过长时间的业务中断事故,可靠性达到了99.999%,但只要出现一次长时间故障,就可能一下子变成了99%,这对数据中心业务的打击是非常大的。为了提升数据中心的可靠性,数据中心必须要引入一些冗余备份机制。其实我们也相信支付宝的数据中心也肯定有冗余备份,断掉一根光纤都能让业务中断二小时,说明支付宝的数据中心本身设计上是有问题的,至少备份没有起到应有的作用。通过备份确保出现故障时,业务流量依然可以有别的通道可走,保持业务的连续性。当支付宝的链路光纤断掉后,应该有其它的备份链路转发流量,这种通过链路聚合或者等价路由这种成熟的技术就可以完成备份。显然支付宝故障不是光纤中断那么简单,也许是光纤中断引发了其它方面的问题,造成了整个系统的瘫痪。数据中心是一个复杂的信息系统,冗余设计也不是通过几个备份链路、等价路由就可以完成的,需要的是全面的规划设计,确保任何一个环节都有备份机制。
当然,要实现所有地方都有备份,将大大增加系统的复杂性,反而会大大降低数据中心的处理性能。过于复杂的冗余设计就可能是画蛇添足,起到反作用。而且引入过多的冗余机制,将消耗大量的资金和设备,给数据中心运行带来沉重负担,所以也不是什么地方都要备份。在业务故障可容忍的范围内,部署高效的冗余设计,才能使得数据中心高效地运行。提升数据中心业务不间断的处理能力,是数据中心的一项持久性工作,贯穿于数据中心的整个生命周期中。数据中心运维人员应该具有如履薄冰的心态,在日常的工作中,勇于发现系统的缺陷,及时完善,做好各种故障模拟的补救措施。在数据中心的运维工作中,也要经常进行故障模拟演练,考验数据中心系统的冗余设计是否有不完善的地方,不断进行优化和改善。很多的冗余备份设计可能并不符合实际,在一些异端情况下甚至起不到备份的效果,这就需要主动做一些故障演练,检验冗余备份设计是否满足设计要求。以便一旦真的出现了故障,数据中心可以从容应对。对于一个拥有数万台设备的数据中心,软硬件故障可能天天都在上演,在这种情况下,要保持业务的稳定运行,需要做大量的冗余设计工作。对可能出现的异常状态,提前进行模拟规避,提升数据中心的可靠性。历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。切记,莫忽视数据中心的可靠性,根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。