艾默生叶雷霖:数据中心基础设施的智能管理人物专访
数据中心是承载我们很多硬件应用和主体,数据中心也是我们数据挖掘和应用处理的一个应用的场景。我们现在在很多场合说云计算、云平台其实只是一种服务,数据中心作为一种载体,所以我把整个数据中心的三层的服务模型往下扩展的话,数据中心本身的基础设施就是一种服务。在整个数据中心的服务下面运维是非常重要的一个环节,也是我们大会的主题。可能我们关注的是数据中心的建设,但是我们关注的是数据中心的运维,之前我们做数据中心的规划的时候是从用户的需求转化到ITC的需求,现在随着海量数据中心的建设已经有几万平米的数据中心都不好意思和别人说,刚才润泽的中心都是十几万平米的中心,其实和我们资源型的支撑,比如电、水等等,在新的海量都为运维服务。
艾默生网络能源有限公司DCIM解决方案部总经理叶雷霖
我们之前都谈怎么从单母线到双母线,怎么从风冷到水冷,有各种各样的解决方案,但是大家现在谈的更多的是管理,是不是管理长有很多的冗余性,这也是我要和大家讨论的一个内容,这是09年的一个标准,今天有很多的专家,管理这块到监控、资产的管理,到运营状态的整个的协调管理,这是我们思想的一个核心。
再回到数据中心,数据中心是由很多不同的分布式的对象,从数据中心的角度来讲,在这里我们有高压柜,有低压柜,还有KVM等等,在所有的这些基础设施当中,大家可以看到它本身就是一个异构的系统,有电的,有IT的,物理的,如何运维管理这些系统,我相信这也是大家的压力所在。问题是这些不同的对象之间,它是有自己的生命周期在里面,比如在一个数据中心里面,UPS,以前艾默生有一个豪华型的酷灵(音译)那么我们网络的周期也有1、2年,虚拟机的架构部分,每虚拟机的寿命够短,迁移的频率更加快,整个的物理对象非常异构的情况下,我们如何保持很好的跟踪,动态和管理,我相信这也是大家面临的问题,资产的状况,生命周期的状况,如果说我们刚才把这些分散对象的不同的寿命,寿命周期做一个规划和整合,从管理的交换讲数据中心,就像刚才我说的云计算数据中心是我们国内最近这几年一个比较大的趋势,包括运营商和很多的第三方都是在做这种事情,规模可以改变所有的事情,规模不单单是我们要买更大的油机,而是改变我们的运维和管理。
大数据中心的建设会带来我们服务响应的巨大挑战,以前可能我们只需要一个很小的数据量,但是我们提升到服务,上面还有一个层级就是决策,如果我做一个数据监控,我把你的数据读取出来可能是10几个数据,我们再上一步做一个决策的话,比如我今年的投资的计划或者明年的节能减排,那你就要有一个相关的分析。在规模改变所有的事情的情况下,我们的管理,我们的基础设施成本,还有管理优化模型来做一个很大的改变。
我们现在运维一个主要的诉求其实就是在需求和供给之间达到一个平衡,比如IT设备的需求对物理层的要求是不是平衡,很多时候这两者是不平衡的。我们以前在做一些基础设施容量设施的时候,包括很多厂家,其实都会有一个很安全的余量设计,很多时候我们的负荷量甚至只有20%-30%,包括我们的冷冻机组的负荷量也是不随着IT的负荷的变动。
我看到一个关于能源结构的比较,说中国的每个家庭单位的成本只是美国住房的百分之十几,比如我们卧室有一个空调,厨房有一个空调,但是美国可能是一个中央式空调,这个耗电就比较大。我的意思是说我们的数据中心的建设和设计决定了我们数据中心运维当中的很多方面,但是我们的运维可以对这些设计和我们的架构进行优化。比如说我们可以让UPS通过负荷调整在最佳的负荷区间。这是从能效的角度讲的,大家可以看到从理论讲IT的负荷是不断的动态的,比如白天进行业务的时候可能是一个峰值,晚上的时候可能就是一个低谷。所有的安全容量和设计容量是大于这之上的,会造成一些搁浅的容量,连他们在哪里我们都不知道。
运维管理的很重要的一个方面就是说我们如何在可用性和效率之间达到一个完全的平衡,这个很难掌握,但是也不足为外人道。每个企业的最佳实践也是不一样的。我们通过了这些问题来了解到我们之前的很多运维的系统,我们很多的运维的架构其实是面临很多的挑战和困难。但是我们现在很多的方案,建设方案和运维方案是不足以面对我们的问题,我也和客户做过一些访谈,包括一些咨询式的建议。或者说垂直式的系统,比如我们有监控系统,艾默生在这块也做了,另外一块是资产系统,入库、上架、下架、变更,比如我们记录整个数据中心的日常的运维的流程。另外还有一些我们的工作流,甚至我们在机房对IT设备的管控,我们通过服务器处理器等方式进行访问,运维工具不下十几种,每个人都有自己的帐号和用户名,分离的子系统带来我们的是管理的问题,这些厂家是由不同的地方和系统构成的。
打个比方,空间有自己的系统,监控可以监控空调的主机发送告警信息,但是如何和群控系统做协调,它会让你控制吗?所以说,各个系统之间的管理逻辑是很难相通的。
在新的数据中心,从08年的时候大家就开始谈新一带的数据中心,现在得到更多的谈云计算,在整个数据中心运维的架构的时候,整个管理平台的软件平台化,标准化,模块化,这样的好处是让各个管理的子系统在数据统一的情况下管理逻辑是打通的,这样不用靠很多人的临时的判断,而且是说我是靠平台的本身的内在逻辑做这些事情。
另外,很关键的要素就是说我们这些管理子系统在大的系统里面是分不同的运维团队,有做主机的,有做制冷的,可能会把它合并成一个大的同类,IT的团队,服务的团队,测试的团队,但是我们无法避免的是如何做到一个高可用符合的高效性。
我们之前在中国地区和全球地区和一些第三方机构做的一些研究的报告的分享。根据我们刚才的一些分享我们可以看到艾默生在这便做了一些实施架构的设计,我们在底层要做我们关键物理基础设施的测量,这是一个根本数据的来源,我们要有一个统一的来源做数据的采集和知识库的录入。
在这个平台上有三个主要的逻辑部分,第一是资产和相关的建模。资产和资产之间是有联系的,比如布线系统,交换机的服务器是有布线的联络,我们的服务器和双电源系统也是有联络的,这些模型是要建立起来的。
我们要对所有的这些机房的设备和资产的关联做出一些报警和监控,并不仅仅是设备本身,作为设备本身可能是对某一个环节,比如PDU做出一个告警,要知道的是DPU和ITU之间的连接关系,一个是设计一个是运维的理念,监控和告警的管理一定要和建模做一个关联。
当我知道告警和关联之后我怎么解决这些告警,比如通过远程带外的方式,这是三个重要的模块,在这之前可以有服务平台,可以有容量,流程,我们的目的是做到动态的实时的优化。比如我们在一个告警里面可以把10个告警变成一个告警。
同时还要和ICM做一个很好的集成,这样的架构是不是可以让大家放心的做运维和监控的工作。这样大家可以在会后有更多的讨论,这是我们目前在整个基础设施的物理层面可以搭建起来的结构。
艾默生在2010年的时候开始研发和部署Trellis系统,我们进行收购了一个数据中心服务管理的公司,中国客户可能对这个不太熟悉,因为它一直没有推出中文版,我们在上个世纪国内的数据还停留在机房的概念,六十K就算是很大的了。
艾默生打造出了一个适时监控的平台,我是想把我们的行为后面的技术背景,运维方面的资源和大家进行一个介绍。
这是一个架构的图(图),采集层、聚合层、服务层、应用层,我们在这个架构上面多了一个服务层,这个适合于更大型的数据中心的管理,当以后我们要开发某一个应用的时候我们的程序人员做大量的数据分析和聚合的工作,也就是说人还需要大量的投入做报表和应用,如果我们加了服务层相当于我们把服务和数据进行了接偶,以后的开发只要基于用户流程的定制,这就降低了大量的成本。
我理解的有点类似于传统的供电系统,比如说供电系统是直交,先把交流整留到直流,再利变成交流,服务可以基于服务的内容变换成我们的应用,就像一个PS一样,其实我不管前面的输入,这个是有异曲同工之妙,可以做到很好的隔离,我们在数据模型方面做了很大的改进。基于这种服务的架构,其实它的原则是说我们的数据必须要经过很好的数据的分析。我刚才也提到整个的对象是不断的变化的,我们要做到数据的相关性的分析,这样形成知识,其实我们在我们的运营管理里面很大一块是知识关系,知识的目的是帮助我们更好的决策。
我们刚才说到了知识,有两种方式,一种是来自于人的经验,另外一种是来于智能,在我们整个的Trellis平台里面我们的数据的搜集和分析其实是智能的很重要的一个方面。在这个的我们的系统里面有一个通用管理网关,这是分布式的数据管理系统,关于各个运维对象的配置关系都在这个盒子里面,当任何一个告警流出现的时候我们可以对它进行复杂事件的处理,进行告警事件的分类,筛选。
比如出问题的时候我们的运维人员会收到一大堆的告警,其实这些告警是可以聚合的,观点是数据是基于时间的,也就是说只有把每个告警数据打上一个时间,在这个地方我们一定要设定一个时间序列的数据库。我们有一个复杂事件的处理,这也是我们整个的平台的一个创新应用,只能说我们是一个创新应用,我们把最新的数据库的技术做了一个非常好的应用,大家知道我们现在都要说实时系统,之前的关于数据的存储,我们有告警上来,或者我们的存储建设,后台的报告里面查询。也就是说我们是用业务规则去查询我们的告警数据。但是如果反过来,我们能不能用我们的告警数据触发业务数据。这就是我们新的技术的应用,我们叫复杂事件的处理。这也是非常高效的一种方式,这是基于你定的规则,就好象我们每个人可以收到几千条微博,但是你可以定一个规则,我只看李开复的,数据就会有一个过滤。
在平台的服务上面,服务是一个很好的结偶的方式,我们很重要的一个方式是多租户,我们运维的对象是多租户的,甚至是一个企业服务的内部也是多租户的,这个特质就很重要。在这上面我们目前是开发了一些应用。比如基于资产的管理,移动的应用,流程的管理。把这些所有的应用基于在一个平台上,灵活的部署,灵活的架构。这是整个的资产管理的情况。
数据中心运维每天不变的就是变更,如何协调各个项目之间的成员的协作关系,包括我们的现场管理,其实大家可以理解成一个监控,包括能耗的管理,包括电源系统的管理,每一个开关的可用性的评估都可以得到一个很好的体现。包括移动的应用。当我们拿一个iphone进机房维护的时候可以和主机同步。
另外,一定要和IT的业务有很好的融合,我们的DCI更多的是和IT进行衔接,在这个方面,其实我们是有很多的合作伙伴。其实管理工具本身也是能耗管理或者能源管理的很重要的一个出发点。比如我们的冷却方式,但是就像我们买辆车一样,一旦发动机发动之后,在于你怎么开,实践是需要一个平台工具,这块我们的方法论就是整个的对于电源的智能控制。
最后除了我们提供本地的服务之后,未来Trellis也是要提供云服务的,当你部署一个通用管理网关的时候对所有的设备进行接入,来进入到云端,只要有一个远程的帐户和网络我们就可以支持Trellis和云平台的服务。
最后我想做一个总结,也是我演讲的核心的环节。运维管理有三个方面,可用性、可管理性和效率,整个的核心是我们要基于可用性基础上,做容量的提升和规划,以及利用率的提高,当容量一定的时候我们要想方设法做利用率的提高,所有这些都来源于我们对数据的颗粒度和广度的数据的搜集,这也取决于你的服务的目标。最后一点是数据中心模型的统一和定义是你管理的关键,管理的来源是数据,你的周期可能是10年20年,这不可能说今天接这个设备,明年换一个设备就接不进来了,或者是接进之后要重新的设计。
这是我和大家的分享,谢谢大家!