分享:中金数据如何进行数据中心全生命周期管理行业资讯

2011-12-25    来源:中国IDC产业联盟    
目前,中金数据在北京、烟台、昆山和广州都已经建设,或者正在建设高等级数据中心,已经投产项目超过了30万平方米。

2011年12月22日,在工业信息化部、信息化推进司、中国数据中心产业联盟的支持下,中国IDC产业联盟网承办2011中国数据中心建设与运维高层论坛开幕了,此次论坛以“领先科技,缔造未来”为主题,与会将就新一代数据中心规划,建设,运维,和安全等实质性问题进行广泛探讨和互动交流。机房360对本次高层论坛做了全程直播。

以下是中金数据副总裁罗耀兴演讲的全文实录:

罗耀兴:各位领导,各位专家,女士们,先生们上午好。非常感谢有这么一个机会能够跟大家分享一下一些心得,就跟我们题目一样,我们作为一个数据中心运营商从中心规划设计到运营管理,经过这几年实践也得出一些心得和体会,借此机会和大家分享一下。首先简单介绍一下我们是做什么的?我刚才听有人说中金是什么,是不是做金融证券的,中金是一个数据中心运营商,并且提供从场地外包,系统运维,灾难备份等一些服务,同时在我们数据中心机房提供与云计算相关服务,包括云后台,我们也是北京祥云工程指定的云后台服务。

目前,我们在全国,在北京,烟台,昆山,广州都已经建设,或者正在建设高等级数据中心。这些数据中心加起来,目前在建和已经投产项目有30万平方米,其中大约有四分之一是可以使用的纯IT企业,整个园区规划可以建成120平方米。应该说在国内民营企业里面是一个比较大的数据中心网络,当然跟中国电信,移动这些老大哥比起来规模还不大。但是,我们有另外一个角度更多是专注在高端的客户里头,也就是说我们的数据中心都是按照国家A级来进行规划设计,平均用电力度,平均都是按2千瓦进行规划设计。这个指标还不是最高,曾经有一部分机房在局部跑到4千瓦,尤其是针对一些高端服务器,还有刀片服务器,这些通常会跑到每平方米4千瓦的力度,这对我们机房来说还是有一些挑战。

在此,我们分享一下我们在整个建设当中一些心得。首先是规划设计,早几年大部分数据中心好多是基于已有的厂房进行改建的,当然了应该说在经济速度上优势,不用在做前期的这些土地选址,购买了,这些复杂流程,也不需要再从地基开始进行建设。但是对于一个高等级数据中心来说难度非常大,我们选择一条比较艰苦的路。我们公司从05年成立用了用了3年时间才达到这种水平,我们感觉新建方式比改造要舒服的多。我们也清醒看到这些年已经很少人拿厂房改造机房,因为难度也非常大,这是从规划设计来看。

在设计过程中我们会面临很多问题,比如首先一个是方案怎么做。当然从方案来看,我们也很多指南规范,比如说国内有一个电子信息机房建设规范标准,就是50174。但是国外还有一个TS942这个标准,还有一个机房分类等级指引,这些我们都可以看。当然还有一个其他指南可以进行考虑,但是我们的实践这些仅供参考。在座也有一些数据中心一些工作组在这里面,也都做了很多工作,但是真正落实一个可用的数据中心要从细节做起。

在指引中,比如我们做T4级的,都可以简单归纳为双路冗余,这些我们都可以做的到,设计院也都很轻车熟路可以做出来。但是,系统设计一定落到建筑设计上就有很多地方是在设计中反映不出来的,是要落到服务里头。打个功能,在功能系统当中我们在各级之间会设一些开关,这些开关通常就放在主设备旁边,但是有一些我们就不能这么想。打比方说UPS电源到机组直流开关应该放在哪?很多人说我放在US旁边,或者是电视机旁边,我们建议这个开关应该单独放。一旦要用它的时候一定是在机房出现问题的时候,这时候很可能是服务器进不去,相这些细节非常非常多。我们要更多去考虑万一我们碰到应急事故要处理的时候是怎么处理的?这是我们说设计方案细节的问题。

当然还有一些很多,建筑漏水等一些问题,所以我们一定要找好的设计单位,把这些细节反复推敲才能做出好的设计方案来。当然了,我们说,什么叫好?一定是一个多方面因素综合,就是我们说的功能性,可用性,这两个往往是矛盾的。我的功能很多,可能性就会有问题,还有就是灵活性。这三个往往我们在设计之中要综合考虑,如果全做好之后,我们就说成本怎么办?把这三个都做好一定成本比较好,究竟是不是真的需要这个。还有一个是建设成本和运营成本之间平衡,打比方说这个系统运营成本比较急,但是他的建设成本是比较高的,而且是一次性投入。

还有一个是节能,其实对于运营商两说他最大的好处不是对社会喊口号我是绿色的,最大好处是运营成本很低。因为所有电费,要不然就是自己付,要不然要求客户出,客户出,他一定考虑我租你场地的话,成本怎么算。我看到很多运营商给你场地,电费另算,每度电1块钱,你们算一下财务帐是亏损的,因为你Q1能够做到多少呢?因为你不会好过1.5,能跑到1.5已经不错了,就目前已有的数据中心,除非你是在东北。像哈尔滨,你要能采取自然冷却这可能会做到1.2,1.3,这是全年平均下来。所以,这在一块钱一度电跟客户收取费用,就北上广是要赔钱的。所以,能源效率最终反映还是一个效率,真正算帐是算在自己头上。

这时候我们往往是说这些设计方案,尤其设计部门有可能方案拿出来之后与供应商充分沟通,最终有没有最好的设计方案,没有,只有说最合适,最好的只有拿黄金,金子兑出来,所以一定要考虑企业的发展。讲到现在就讲到一个如何引导设计,刚才台上获设计奖的都是国内顶尖的设计团队,很巧跟我们都有合作过,感谢他们的设计。但是,真正拿到好的方案是不是适合你?自己必须有一个团队,你很难说把一个简单设计任务书给到设计院,他就可以做出一个更贴合你要求的方案出来。因为每个设计院思路都不太一样,可能有的设计,总设计师是偏向建筑,可能给你搞的外观很漂亮,有些是做厂房注意功能性就不太考虑外观。所以,真正能够自己引导需要自己建立一个比较强大的设计部门,而不是他去画图,但是一定是他们互相沟通。

还有一个合作是供应商,在座我看钻石赞助商,像类似这些厂商有很多解决,尤其针对他们的产品解决方案。恰巧我们认为设计院通常做设计很少涉及到厂家产品,厂家针对自己系列有很好解决方案,但是不是很全面。所以,我们作为建设单位需要通过自己的规划设计团队充分的和设计院,和主流供应商进行沟通,使得他能够采购都能够衔接上,这样的设计是能够在建设之中,并且在后期运营之中都能够比较顺畅。这一点,作为我们来说是有这么一个心得,这也是一个。

当然还有一个是外部资源保障。一个好的设计,建出来没问题,跑不跑的起来不知道。我就知道有很多一些大型数据中心,可能就因为外部保障问题建成跑不起来,在这里就不点名了。金融行业数据中心也碰到这种问题,原来供电网络都是不足的。所以,我们跟当地政府往往是谈第一件事情,我需要多少电,你能不能给我,或者我需要多少水能不能给我。然后落实清楚了,把方案搞清楚了我再真正去做规划设计。因为目前大型数据中心动辄就是20,30万千瓦能量,所以这个电量相当于一个城镇用电量。我们曾经在某一个数据中心在落实建设过程当中,最终是请供电部门将整个供电网络改掉,因为我们数据中心规划已经30万千瓦,而最终是专门拉的两路110单过来,在我们自己园区做的变电站,这就需要供电部门大力支持配合,否则的话你建成了是没有电的。

当然了,这是在目前比较主流系统之中,我们同样会碰到这样一个问题,通胀一个机房中等规模,比如说建设面积2-3万平米,全部采用水制冷,可能一天需要2千吨水,这是一个很大的量。要是一个园区,那么一天就是万吨以上的水,相当于,中星国际他们做的芯片很大,但是数据中心也是一样,所以要充分考虑供水能力。网络倒是相对简单,目前无论是电信,联通,网通,移动都有很强的推广力,一般来说都能够做到,但也需要提前落实。

接下来就讲一下在运维过程中一些心得,运维过程非常复杂,既要管理基础设施,又要管理IT系统,这都是非常复杂的。我们通常会依照比如ISO20000作为IT管理,以此为基础来建10,8个模块来支撑你运营体系。当然,还有跟他供配电可以形成数据中心自己的管理制度。但是,我们说这里头所有这些管理,我认为当前最关键就是变更管理,运营数据中心再好数据都碰到我需要的要求,无论是你系统调整,这些都会遇到。我们说,就像我刚才说没有最好设计,为什么?一个需要平衡各方面因素,还有一个用2,3年之后你就发现,我还有一个更好的方案,或者更好的产品,或者新的需求。这时候,我们就会面临一个运维之中最大的风险,我们要对正在跑的数据中心,我们要动刀子,我们要改,这就是最容易出问题的地方。

为什么出问题,东西放在那不动,关上门,马上就要到年底了,无论是供电部门都会有一个风网不能动,哪怕我干了一半事到点就封上,只有应急情况才会进去。因为一个系统里跑起来之后,他也觉得行就这么跑着,一动的时候有一个成语“牵一发而动全身”。还有通常变更留给我们时间窗口是很小的,有的是两个钟头,有的是四个钟头,这是窗口时间。所以,这些工作都会非常紧迫,这就是忙中出错,这是第二个。

第三个通常我们说动一个部分的时候,我们仅仅在想这个部分,这个专业。比方说我是要动水,这可能跟冷冻相关的专业去动。但是,可能就忘掉跟电有关,倒过来也是一样,动电也可能跟其他弱电,监控也有关系,这时候我们很可能会遇到问题。所以,运行之中每次一旦,我们今天运行都是如临大敌,要把这个变更需求部门,设计的所有专业经过自己开会,做会诊,最终制定一个详尽的操作方案,每一步,一条条,每个动作都写进去。包括说我下来一个闸门,动了一个开关,而且在每一步都必须有一个回退的策略,万一我动到那了监测不合适必须有一个回退方式,在每一步都要。因为,你不知道走到哪一步走不下去。有些里感觉,这个其实我很简单,心里想很简单,但是真正做起来就会有问题。所以,每个操作步骤都写出来,做好回退。

而且,在真正操作之前都必须做桌面推演,只有推演到了才知道你这步能做到。只有这种严格管理,才能在推演过程当中避免问题。还有一个应急演练,我们会大概做一下。比如说我们最终都会有应急发电系统,大家都知道邮寄可能要两个月启动一次,否则不知道能不能启动,尤其是冬季。但是这种演练很多都是空载,而我们所了解系统很多一加负载就会掉机器,同步不了。还有一些是我能够加入进去,可以切换,但是跑两个钟头之后,可能发电机就有问题。因为我们通常知道,应急发电机都会有两功率指标,能不能真跑到那个功率不知道。

所以说,我们建议这些类似像产业本身就是作为一级保障系统,每年至少要做多次实际的投入,跑的时间是4个钟头这是我们持续加在一起,至少4个钟头。当我们在国内考察的时候我们还见过另外一种操作方式,油罐的油怎么办?有一些国外数据中心,每个月都会让他跑十几个钟头,把油用掉。因为油通常为了保障应急,不管是48小时也好,24小时也好储油量很大,我们真正跑起来不多,油放在里面可能过两年有一些变质,或者有一些分离。国外有一段时间油罐是分离的,某一些油罐就全部烧掉。这些既是一个应急演练,同时也是处理他的储油,把油用干之后重新灌入,这是讲运行管理的风险控制。

还有一个是关于客户满意度,我们作为一个服务商基本上整个产量都是给客户用的,我们自己用一小部分。怎么样保障客户满意,我们说有两个用途,第一个是留住现有客户,但是这个我们认为这不是最主要,最主要是吸引潜在用户。因为往往这种高等级数据中心是利用口碑经过营销,因为指标讲起来差不多,你说T4我也是T4,你说每平方2千瓦,我也是2千瓦,所以口碑非常重要。但是,客户满意度,不管是约定的服务范围比较简单,更多是一些随机服务请求,怎么去应对。这时候,通常我们会制定流程,这个流程我们内部刚才也说了像ISO20000会制定很多,包括管理,配置,运营等等。但是,至少从我们这个行业来看,因为我们面临的是高端用户,他们服务请求是比较怪的。反过来说,你自己可能有一些反过去的服务请求,比如立即变更请求,比如我今天要做一些网络切换,他也有一些复杂流程可能需要2天。我觉得要实现满意度,必须在双方之间把管理流程对接上,甚至针对每个客户单独做一个对接接口。大家就约定,并且执行之中也可以进行随时改进,这是流程。

最后一个就是关于制度有多大用处?我们说制度是必须的,但不是万能的。因为什么呢?所有制度都是针对已知的,或者说你可以预见的这些事情做的规定。但是,永远会有你不可预料的需求,不可能写在制度当中,就需要在制度当中,流程规范留下缺口,留给现场的人去进行判断。这样的话,你需要一个无论在技术上,管理上头都要技能过硬的团队。我们通常说告诉你怎么做,碰到情况怎么做写出来,这些东西都是你事先能想到的,但是生活永远比剧本要精彩,也是更复杂一些。你必须在这个环节当中要留下出口,这个出口交给现场的人进行处理,这是我认为一个好的数据中心,最终制度是保障,设计是保障等等都是保障,最终把关的是团队,平时培训也是非常关键的,要保持长时期培训交流,这样才能够真正创新。

我们感觉这几点,在设计到运维等等过程当中的一些心得。目前我们已经为一些比较大的用户提供很多年服务,也得到他们一些支持。我们很多流程还是通过他们来进行优化的,帮助更好建筑或者是吸纳,非常感谢这些客户。还有,也是在供应商,设计院那边,我们也吸取很多经验,学习到很多本事,再次一并感谢大家,谢谢。

1
3