国富瑞梁纲:数据中心运维业务流程管理互联网

2013-01-05    来源:IDCUN    编辑:IDCUN
我讲讲数据中心在实际运维过程中存在的管理过程中要注意的问题。

  我讲讲数据中心在实际运维过程中存在的管理过程中要注意的问题。我先介绍一下国富瑞公司,国富瑞是商务部中国国际电子商务中心旗下控股子公司,是专注于数据中心外包和云计算服务的专业化公司,也叫CIDS,我们始终坚持以高品质的数据中心基础设施、专业化的技术服务团队和优质的服务产品为核心,面向政府、事业单位及国内外企业,提供高可用的数据中心,灾难恢复与业务连续性管理、云计算和物联网支撑平台等外包服务。

  下面按三个标题和大家探讨,国富瑞坚持数据中心业务,请大家看一下我们的业务是怎样的发展。



国富瑞数据系统有限公司数据中心管理部总经理 梁纲

  大家看这张图,是我们业务的分布,我们国富瑞公司现在有8个数据中心,其中5个已经完全的通过生产了,另外还有几万平米的数据中心正在建设过程中。在全国各地有一些需要服务的布点工作已经在开展了。

  我们还要开展数据中心的运维外包业务,比如说我们成立了国家电网,华北灾备中心,华东数据中心,西北数据中心的运维外包业务。但是知道国家电网的灾备中心是承担了国家数字化电力调动的重任,我们在承接数据中心的运维外包过程中,也下了很大的力量,充分的发挥我们已经存在的运维的经验,以及技术里面的优势,为国家电网出色的进行服务。

  还有我们的数据中心建设咨询。国富瑞公司最早从事数据中心业务是给商务部承建机关贸易网的业务,那时候一直到现在除了商务部和商务贸易系统和各下属网站一系列的通信任务以外及现在开始面向市场的商业IDC和众多对客户的外包业务,全面性的业务发展。

  IT系统的运维外包也是我们坚持的方向,这样才能把所有的业务纳入到整个运营外包中作为一种模块。国富瑞公司很注重相关的在管理过程中所需要的体系建设。也许大家在数据中心过程中可能注意到这点,像IFO体系正系在数据中心运维过程中要遵循的,在国富瑞的数据中心全面的落实ISO所效果的各项管理体系,因此今天我们要谈的重点就是在体系里面的流程管理。

  这也是我们一项服务,系统集成,灾备服务,其实灾备服务有几项,我们去的服务就是服务它,包括它体现这种灾备服务。很多金融、证券从行业体系要求来讲,包括每一年都要做灾备演练,我们都要配合客户做好灾备服务,最重要的一点就是我们做基础设施的环境的服务,包括各项基础设施的全面的检查,这点不光是我们自己对自己的要求,更多的是客户对我们自己的要求。因为客户对你的环境是不是认可。我们要有报告,要有相关的演练的文件,才能让客户在我们的数据中心长久的留下来,因此从市场,管理,各个角度进行序列的演练。

  下面重点看一下国富瑞在管理过程中,流程管理的一些重点。客户无论是生产中心还是灾备中心,要让客户放心,连续性达标怎么办?所以我们所有的各项工作是每一步都要按照标准、流程、安全性达到SILE,达到双方所规定的指标体系。在我们的数据中心里面,既有客户把它作为一个灾备,又有客户把它看作是生产中心。对于客户来讲无论是生产还是灾备,哪一方面出了问题,对他太讲都是损失,产生的后果对我就是一个严重的损失,因为我们都不要放松。

  因此我们在制定目标的过程中,运维目标就非常的重要了,满足业务要求,以及不断的改进服务,降低成本,管理风险,和改善环境。其实这些目标,是客户给我们的,有的时候更多的是感觉到是我的上级给我的。也许我们底下有一些同事,是真正的从事数据中心管理的,那你的目标是谁给你的?一定是你的上级。比如风险管理,在你非常的工作里面,会不会有风险,我相信一定会有,而且风险不小,但是你怎么承诺你的上级的?怎么规定你的职责的?你的领导会不会考核你,甚至批评你?这些都是有可能的,我们面临的这些我相信大家都会有。

  我们在制定工作目标和职责,考核,流程上我相信我们会有一个共同点。我们要让领导放心,同时也让客户对我们放心,到时候对市场的回款能够快一点。这个是实实在在。

  如何获得更高的商业价值,又怎么从企业内部转到服务外包,以缓解压力?每个但是都一样,无论你建了多少数据中心,我们的人在实际的工作中也不断的受到了锻炼,其中外包业务是我们的发展的方向,其实大家可能有这样一个感觉,近几年,包括云中心,数据中心,大面积的数据中心。做数据中心的无论是管理人员还是技术人员,在市场上比较紧缺。拼人是拼不完的,所以我们要向管理要效益,刚才GDS的张总也讲了他们的平台的应用,实际上就是要有一个规范化的问题,一个数据中心,用5个技术人员就不用10个技术人员,这是公司运营效率的一个要求,如果我们在做的有管理者,或者是从事技术工作的人员,会有这种体会,如果有更好的工具,更好的流程,那我们的工作就会减少很多麻烦,甚至是很多的风险,那谁不愿意这样做呢?

  因此,我们在管理过程中,要通过治理框架,组织结构,能力与流程的设计,持续的降低成本,服务提升,以及风险的掌控,所以,这里面强调一点就是风险。数据中心这么大,很复杂,时时刻刻存在着风险,风险是如何消除的?需要我们人的工作,需要我们的平台,所有的都很重要。流程重不重要?一定重要。

  组织与管理是什么?设计和优化组织结构,并有效管理,管理一个数据中心,至少涉及7到8类专家,每一个专家不可能拴一堆工程师,一个工程师不可能又懂风又懂电,那怎么办?对组织结构和运营团队有效的整合,通过这种团队,甚至是进行合理的调配,都是有可能的达到这种组织结构优化的。那么人力资源也会提出来,无论在北京有几个数据中心,他都尽量要压缩你的人手,从运维来讲,我总是希望人手多一点,人力资源是从公司的角度讲,减少开销,风险性又来在谁的头上?一定是运维部门的。

  我们在运维过程中必须要制定制度,在执行过程中,把流程和制度定好了对我们的工作一定有帮助。刚才讲人员的流动比较大,人员的需求也比较多,如果一个部门20个人还能支撑,如果人员更少,新的人员来了,如果进行工作,来了新手对整个系统完全的熟悉需要相当的一段时间,不可能随时随地都在进行培养新人,但是我们通过流程和制度让每一个新到岗的人迅速的进入角色,对后端的运维工作有所帮助,减少整个系统的出现危险的时段。

  工具与技术,这点我和张总非常的同意他们做技术平台的问题,只有通过技术把人从机械式的巡检,计划,解放出来,我们在行业里面有一个名词叫人防加机防,制度是人制定的,关键是人来执行,在机房运维过程中,可能长年累月,一线的技术人员无论多么的敬业,他也有懈怠的时候。

  动换系统是细到每一个开关都有触点监测,但是如果你没有这个系统,你都不知道它显示的内容是什么,甚至即便有事件的时候,这类问题今后还会不会发生,是搞不清楚的。一说到管理,肯定就说到一个构架的问题,比如管理系统之所以称为系统是由不同的部分组成,而且涉及到管理,这个图下面有一个接口,涉及到相关的技术服务,以及涉及到客户各方面的接口,都叫服务接口,如果在数据中心里面,作为一个商业用途,进入到数据中心里面,肯定对他的网络和环境有一个二次需求,除了原有的数据中心的环境课外,客户还要增加他的东西,我们要对客户的要求进行详细的分析,进行二次支持。

  向上看叫管理平台。这里边讲话讲了一个叫动换平台。这两个也决定了一个数据中心的问题,是保证整个环境以及客户使用环境的一个最基础的安全问题。还有一个是系统,一般来讲比较大的灾备中心,倒是使互联网的机会并不多。但是客户有一个要求比较多就是网络监控,一般来讲客户会有一种担心,就是把他的信息外露,但是双方会签订保密协议,但是网络终端以及他的CPU使用,以及基础的监控是可以放出来的,因此我们还有大量的IT人员,进行大量的服务。

  服务窗户和管理平台由相关的管理流程来支撑。在座的可能有学过IFO体系的,这里面包括主要的管理项目,事件管理,配置管理,服务能力管理,变更管理。我不知道在别的数据中心是怎么实行的,在国富瑞的数据中心,对这几项是必须执行的,举个例子,事件管理指的是什么?是不是说真的发生了着火这类的?不对,凡是涉及到客户负载的都属于。有些事情可以列为事件管理,比如某些备件损坏,但是并没有影响到我们客户。可以提供给客户参考。变更,包括我们的操作甚至一些指标的变更,在月度客户服务报告上要体现。

  ISO20000体系也都是涉及到相关的管理问题,这是我们管理流程所涉及到的一些过程,刚才讲到过程管理,工商管理,也许在一个数据中心涉及到众多种类的设备设施,那你的设备商是否调理及时都要有相关的记载。

  我们看一下业务流程,大家看第一层,谁涉及到业务流程的管理,这是处于整个流程的最上层,我们的领导,包括大家所在的数据中心的领导都要做这个事,业务部门,比如说你做数据中心运维的,要配合你的市场,他们也是非常关心这个事情的,通过有效的手段,不同部门之间进行沟通。服务目录和服务承诺,数据中心和商务客户签订合同之后必须有一个SLE,双方对服务内容要有一个详细的规范。通过两个窗口对客户进行服务,一个是智能区域的故障处理,在每一个数据中心里面,每分每秒都是会有专业的工程师为客户服务。不可能缺少一点,还有一个是应用管理。以及他主要是涉及到一些相关的支持部门,一般是5×8幅。还有环境动力管理,文档管理,应急管理。

  特别强调应急管理,数据中心在平时过程中服务好与不好都是责任内的事,应急管理是考验你的团队的关键性指标,客户所要求的就是要求你连续性,安全性,按照梯次级标准,要求就是99.95%,一年允许里26分中止供应,其结果符合规范,但是这个客户你一定是留不住了,所以这26个人都不存在,一年之内,一分一秒都不可以给客户断裂,梯次标准对我们来讲还是封的。

  因此我们通过生产运维的流程,跟规范,设备设施,来进行严密的日常监控,主动发现问题,并且在事后以及按照规程,每月每年写出服务报告,能源报告。

  我们再看一下数据中心业务流程,有一点理论化的东西,运用流程树立化技术在完善运行标准的基础之上,规范运营操作技术行为,奖惩规则,落实运维责任制,这点我们数据中心对运维的考核非常严,这涉及到客户是否忠实于数据中心。能体现出整个数据中心技术人员的能力,以及管理责任心的问题,比如今年到年底,我们要对每一名技术人员,都要对技术、工作、态度各方面作出考核。市场部门也可能是业绩好,我们也可能奖励并不多,但是你的工作只要出一点差错,将非常的严厉。

  我们数据中心的业务流程,指导思路又是什么?为什么一定要这些流程?有这样几个指导思想,第一落实公司战略。每个公司都有,特别是在数据中心业务上,把我们的主题思想灌输进去,发展客户,因此在我们的工作中一定是体现公司的发展战略。还有一个这是支持多种类业务扩张,各数据中心也好,有这样一个团队,把所有的业务,各部门的业务得始终贯彻到一线去。

  数据中心的后台,从财务到人力,甚至到市场业务,这两边基本上是不在一起的。所以,数据中心是什么样的一个体系?有的时候后端的人员还真的缺少了解,我不知道别的单位是不是这样的一个体会。发展管控手段,公司一定要发展,我们也会制定很多流程和制度,通过数据中心制定的流程一是为客户服务,在是上交到公司的时候,会按着你的流程有一些考核的方式。

  提升管理能力,这点应该是能够得到贯彻的。通过管理里面及工具的导入,围绕公司战略管理范畴,做到良性的循环发展,无论是事件还是配置,我们公司有质量管理部,所有的指标全部纳入数据库。这里面所有的需求和系统化的管理的要求,GDS有一个平台,我们个平台可以说是在他们的借鉴的基础之上,构建一个更大的框架。在我们所运营的数据中间已经开始集中搜集数据库,进行集中统控的数据调动。

  另外,在外包的流程,大家看到制度和流程是建立在体系跟结构下面,是一个基础的东西,在执行过程中,我们对每一个项目团队,都是由公司统一的规划,统一的落实,统一的考核,谁都不会利用这个主线。包括团队建设,东西按照这种流程来进行落实的。我们在流程管理中如果能取得一点成就的话,我们可归结这样几个要素。人员组织,管理流程,管理工具,管理信息,领导力和组织文化。我们刚才讲的涉及到管理流程。制订了这些流程,但是节省时间和成本,改善工作质量,实现流程自动化,实现团队合作,向知识型企业转变,现在在总结这些流程过程中,可能大家看到不过是几个流程,但是在摸索这个流程过程中,每个单位可能碰到的问题不一样,情况是千差万别的。至少在我们大力发展数据中心这几年,在流程制定上,确确实实是下了很大的力量,也不断的与实际结合,征求客户的意见,形成现有的流程体系,但是这个体系随着业务的发展必将不断的完善。

  谢谢。

1
3