云立方总经理姜俊海:超大型数据中心基础设施的运行和管理
2012-09-25 IDCUN 编辑:IDCUN
我今天介绍一下超大型数据中心基础设施的运行和管理。数据中心的建设越来越多,规模越来越大,像国内的一些很大的运营商都会越来越多,甚至在一个城市,或者多个地区建很多数据中心,同时每一个数据中心规模都非常大。第二、数据中心系统越来越复杂,我们看到数据中心有的是有单路高压、双路高压,甚至多路高压。UPS供电我们也有N、N+1、2N、2(N+1)、(N+1)+市电。如果在全国用多个数据中心的时候,我们公司的家底有多大?我们公司在哪些省市建有数据中心?共有多少个数据中心?数据中心的总民机?机房区总面积是多少,都无法统计。
天津云立方科技有限公司总经理姜俊海总经理
还有我们对数据中心运行管理怎么样?我们对数据中心一个月能交多少电费,所有的数据中心PUE多少?全国数据中心平均的PUE多少?在某一个数据中心,它的双路高压电发生几次中断,这对将来的规划都很有帮助。在目前负载的情况下,电池用电到底能维持多长时间。以运行机柜的平均功率多少,哪些机房的温度更高了。还有冗余的设备,你知道荣誉的空调多长时间没有用了,什么时候应该让冗余的空调起到准备的作用,而另一台冗余下来作为备用。那么,对所有的设备来说,你知道所有的空调已经运行多少消失了?这个水泵运行了多少小时了,是不是该做维护了,这些东西用人工统计非常困难。
那么,怎么做到这一点,规划和设计一个数据中心的时候就要想到这一点,整个系统中要全面的安装能够帮助后面建立自动监测系统的传感器,比如电量仪,要安装在云端,我们在变压器380伏一端一定要安装电量仪,测量功率和电路。这些电量仪安装在很多地方,除了变压器的进线和发电器的输出,空调系统的输入,这个数据能够将来帮助你对整个数据中心PUE的运行,以及耗电量,以及每一组UPU下所在的负载的变量都会作出一个精确的统计。为了精确的测量每一个机柜的耗电量,我们在电流互感器中要安装电流的监测仪。如何应对这些问题?我们要安装传感监测装置,我们要安装环境、空调参数传感监测装置,安装机柜区冷通道、电源室UPS进风处,要安装干球、湿球温度传感器、液位、水文、水压、压差、流量等传感器。同时,为了实现自动的优化各控制,我们还要安装一些执行机构,就是电动阀门。
作为一个数据中心的设施运行管理系统,我们要具备哪些功能?此前,我们大多数数据中心也有它的监控系统,比如说BMS,大部分是基于单个数据中心,做的是监测,在早期数据中心分室内和室外的空调系统,所以当时情况下可控制的量很少。当我们把水冷引入数据中心以后,数据中心整个运行的效果,最近的PUE就变成数据中心考核的一个很重要的指标。如果数据中心要节能,要取得一个好的PUE数据,我们必须得进行一个很好的控制,这个控制就是基于传感器的监测和你优化的算法。我们现在数据中心已经不是早期的简单的数据中心,所以我们的监控和管理系统一定要统一,IDC设施运行管理系统必须具备这些功能,比如系统内各运行参数的实时进侧,主要设备的实时监测,同时对监测完的数据进行存储,分析,同时要制定一个优化的算法,对数据中心的整个系统进行控制。然后根据监测的量进行警示和报警的功能,同时对历史的数据进行分析和挖掘,同时对整个数据中心的设施进行合理的维护和管理。
这就是基于目前我们用到的问题,以及提出的要求,我们开发了一个管理系统,是架构在Linux操作系统和Web上。这个系统主要有三个形势,一个是能够进入各个数据中心的总体情况,比如可以看到这个公司在全国有6云计算数据中心,同时它的供电能量能够表现出来。我们现在可以看出来这个公司在北京市有三个数据中心。我们进入到它的据比数据中心,可以看到第一层什么情况,这些进入到机房区里面的一个房间,可以看到机柜的情况,在什么地方安装。这个画面下面黄色的条表示一个漏水绳,因为有水冷空调。
这个是我们展示的第二个方式就是单线图的方式,传感器后面要安装电量仪,这是UPS输入输出的情况。整个软件更强大的功能就是能够基于强大的报表的生成,这个里面我们可以看到这个公司在全国数据中心一些机柜的用电情况,电费、税费,以及机房的温湿度,以及PUE。这个表我们可以看到这个公司在全国6、7个省市使用的数据中心中心,这个数据中心的PUE多少,已运行的机柜多少,已运行机柜的比例,整个数据设计了IT的安装,IT的总能量多少,现在已经运行的IT设备有多少,现在可以看到就达到60%,70%的运行。
从这个表可以查询,因为我们所有采集的数据都进行了存储,可以生成很多的表格,同时可以生成各种各样的周报、年报。这是在某一个时间段里面,8个小时里面这个公司全国数据中心它的用电的部署。这是这个公司在全国所有数据中心的PUE,你也可以看到他昨天晚上每小时的PUE多少,都可以看到。同时我们可以记录下来UPS谁提供的,可以得出这个UPS工作的时间,如果它负载很重,相应的可以对设备更换给予指导。这是你看到你的冷水机组,包括精密空调,我们开发这么多是基于我们多年的实践,我一直做运维管理,基于目前对机房的管理我提了一些问题,以及目前的数据中心越来越大,又提出新的问题。我经常是老板突然间发了一个邮件,就一行字,可能就够我们就得忙好长一段时间,比如同一个地区的机房为什么PUE不一样,是运维问题,还是设计问题,这些问题需要很长时间。所以,我们基于这种需求,开发了这些。谢谢大家!