新加坡证券交易所数据中心电源中断的启示和教训绿色数据中心

2015-07-20    来源:机房360    编辑:Harris
2014年11月5日,新加坡证券交易所(SGX)业务系统中止了将近三个小时,因其数据中心无法应付由雷击引起的电压波动而停电宕机。据当时的报道,5日下午2点18分,断电事故致使新加坡证

  2014年11月5日,新加坡证券交易所(SGX)业务系统中止了将近三个小时,因其数据中心无法应付由雷击引起的电压波动而停电宕机。据当时的报道,5日下午2点18分,断电事故致使新加坡证券交易所业务中断,直到下午5:15才恢复正常,并且导致其切换到辅助数据中心的数据不完整。

  由于停电,致使2小时42分的证券交易中断和4小时27分钟的衍生业务计划外停机,这是一个严重影响新加坡作为金融中心声誉的事件。新加坡政府对于发生在吉宝讯通新加坡证券交易所主数据中心的事件高度重视,为此成立一个高级别调查(BCOI)董事委员会进行独立监督调查。

  一系列不幸事件

  在今年年初,BCOI完成调查报告,并于2015年3月31日将其报告交付给新交所,6月底新交所进行了公开发布。新交所宣布了高达1500万美元的投资,以改善其基础设施,对其在2014年11月业务停运和12月3日的独立软件相关停运进行恢复。

  BCOI邀请了一些数据中心专家,来调查到底发生了什么,并希望了解哪些行业能够从这一事件得到经验和教训。不久之后,新交所指定了让i3解决方案公司调查停电原因。

  而BCOI出具的调查报告解释事件发生的根本原因,以下援引其结论:

  “停电的突发事件是新加坡电力为新交所主要数据中心(PDC)提供电力时,其同步电压跌落,同时启动了两个应急电源系统(柴油发电机+不间断电源(DRUPS))。

  而两个应急电源系统其中一个发生故障,这导致其输出频率与另一个DRUPS的输出频率不同。其下游的静态转换开关(STS)无法补偿频率差,并引起相位功率转移,从而反过来引起一个浪涌电流,导致新交所主要数据中心大量断路器的跳闸,致使整个数据中心 停电,关闭了新交所全部的IT系统和设备。

  新交所主要数据中心停电事故的关键原因是,电力传输通过STS时,两个应用电源系统的输出频率不同步。

  STS是一个可以连接两条电源线路,在一条电源线路出现故障的情况下,可以快速安全地切换到另一条电源线路,以保证连续供电的电气开关。这种情况下,这可能存在着一个设计错误,而不能通过随后的测试。这意味着,STS无法处理相位功率转移,因此不能补偿由所述故障DRUPS频率差。这引发了输出电流浪涌,并最终导致数据中心全部停电。”

  归结为人为错误

  “我希望可对STS在频率同步方面进行检查,以确保它是否进行安全的切换,以防止故障转移到其它输入。因此,在这种情况下有可能是配置错误,“一名不愿透露姓名的高级工程师看到报告后表示。

  需要明确的是,BCOI报告指出新交所主要数据中心 (PDC)的整体设计是合格的,而且它符合“工业韧性标准和最佳实践”。为什么在设计时不将STS与动态电压能力这个安全性的问题放在首位?为什么不查一查是哪个专家批准的设计?

  谈到一般任务关键设施,绿色全球解决方案组织的马丁•休帕说:“人为错误往往是导致相关的停机时间的罪魁祸首。人为错误故障模式并不总是完全映射的,需要团队更加细致的维护才能将隐患降到最低。”

  另外一位不愿透露姓名的数据中心运营商的高管表示,对于数据中心 的设计和实现方面需要考虑更加长远。从工程的角度看,一切都是根据客户的要求所设计和建造的,因此有某些方面还不到位。

  而数据中心的每一个业务中断事故,对于服务供应商和最终用户来说,都是一个学习经验和教训的机会。

  i3解决方案公司的董事长及联合创始人埃德•安捷表示,“凭心而论,大多数工程师并不会犯设计缺陷这个显而易见的错误,我们公司将帮助新交所识别和排除故障,我们在新交所之前遇到过这种故障类型,所以我知道该怎么做。这不是一个新问题,这是知识渊博的数据中心专业人士所必备的专业技能。”

  而至于为什么没有切换到辅助数据中心(SDC),BCOI报告指出,现有信息已经提交给新交所的危机管理小组,这意味着他们不得不考虑主要数据中心与辅助数据中心之间的临时通信丢失的可能性。因为在主要数据中心 (PDC)匹配引擎设计继续在通信丢失的情况下运行,订单可能会成为不匹配,在故障转移时使得它并不安全。

  基于这些信息,Organisation弹性管理公司总经理WongTewKiat对于其业务连续性和数据中心管理提出建议,认为PDC和SDC在IT配置上可能有所不同。“不同配置主数据中心(PDC)和辅助数据中心(SDC)可能是由于多年技术有所改变,而SDC及时改变了技术。”他表示。

  如何在业务持续性管理或企业风险管理进行BCM的风险评估,Wong说:“我们将不再只注重业务连续性,同时还需要对IT硬件,应用风险管理软件,网络通信和数据中心进行整合(一个更全面的方式)。”

  该BCOI报告中对数据中心各方面提出了改进建议,包括其内部程序,监控功能,恢复时间和沟通,利益相关者等,而新交所宣布对这些方面进行投资。如果发生什么事情,虽然可以显而易见地看到其结果,但是停电不是新交所唯一可能发生的故障,由于这一事故,他们不得不依靠外部专家进行协助。

  根据报道:“在新交所的PDC[主数据中心]的设施,包括电源的结构和系统,由DCP提供。新交所在建造和运营数据中心设施方面,不具备内部设计的专业知识,因此,新交所必须依靠DCP的专长。”

  而对于数据中心 运营商来说也提出了一些问题,如为哪些行业提供服务,并能提高自己的水平?虽然这个问题没有简单的答案,但专家建议,数据中心故障的知识共享可以使整个行业受益。

  安捷表示,“而这个根本的问题是一个全球性的问题,总体来说,没有披露其失败的原因,但是为什么要披露呢?这会让新交所感到尴尬,并会损害名誉。因此,如果没有违反法规,那么当事者很自然地避免向外解释发生了什么事情。”

  “数据中心的每一个中断事故都是运营商和最终用户一个学习经验的机会。”Equinix公司新加坡运营总监蒂亚姆•玻斯说,“在发生故障后,通过对事故发生的细节进行整理,很容易让顾客清楚发生了什么,并表示‘如果我知道,我永远不会做这种事。’”

  “这些事故发生后,虽然造成了一定的损失,但它对未来的影响显著。如果我们不断分析结果,不断创新,进行相应的规划,以实施其最佳做法。”他说。

  目前,新交所接受了其在中断事件中负全部责任的事实,并且接受了BCOI的建议,来改善和加强其技术基础设施。同时,新加坡金融管理局(MAS)也宣布,将通过独立的专家团队来监督和验证补救措施是否落实到位。

1
3