建行张志深:用信息系统运维理念管理数据中心
2009-12-14 比特网 编辑:李菁
问及金融行业IT建设的关键是什么?十有八九回答信息安全。的确,金融行业对信息技术的依赖程度不断增加,金融机构——特别是银行信息安全保障工作的难度也不断加深。在今年9月召开的银行业信息安全通报会上,央行行长助理李东荣就表示银行业信息安全事关经济金融的稳定大局,银行业要把信息安全列入领导议事日程。
而银行业的数据中心作为承载银行业务的重要IT基础设施,承担着稳定运行和业务创新的重任。在银行新型客户服务模式下,数据中心需要更高效地支持后台业务和信息共享需求,同时要24小时不间断的提供服务,支持如网上银行,电话银行,自助银行,企业银行,手机银行等多种服务手段。这对数据中心的资源整合,全面安全,高效管理和业务连续性提出更高的要求。
庞杂的IT基础平台需要科学管理使用,特别是业务流程梳理,业务运行的安全性、稳定性及高效性有效结合并进一步提高,而解决这一问题则需要一套完整、行之有效的数据中心日常运维管理解决方案。不久前,中国建设银行信息技术管理处、北京数据中心环境管理处的张志深处长受邀来到了由比特网和中国计算机用户协会机房分会携手打造的最新视频谈话节目——“戈友会”,畅谈了大型数据中心运维管理方面的一些重点问题。
股改带来数据中心的机遇与挑战
“90年代初期,中国建设银行的38家分行都作为独立的法人进行着经营活动。为保障经营活动的正常进行,每个分行都建立了自己的IT系统和独立的数据中心。”张志深说。与当时多数的金融机构相同,纷繁复杂的信息系统和分散的数据中心并不利于中国建设银行(以下简称建行)信息安全、互联互通及业务的创新与发展。
2002年,得益于股改的契机,建设信息化发展趋势发生了巨大的改变,首先是以数据大集中为标志的建行新一轮信息化建设开始。建行的数据大集中工程主要目是达到全行单一法人的经营结构,在全行建立起一套核心业务系统,以支撑业务的正常运作,而核心业务系统的运行则是依托了北京和上海地的数据中心。
在5、6年的时间里,建行总行数据中心部署的设备快速增加,数据中心规模急剧膨胀。机房面积也由股改前的1千平米扩展到1万平米。在此同时,一级分行数据中心的发展则更加趋于平稳。而这正是印证了建行将更多IT资源应用于总行数据中心的发展策略。与此同时,总行系统的高度集中也为数据中心安全可靠运行,特别是数据中心运维管理的理念、流程和制度等方面提出了更高的要求。
张志深介绍:“建行总行北京和上海两处数据中心虽然总面积已达到了1万平米,但密度不大,总耗电量只有5千多kVA。这里承载着建行的核心业务系统以及电子渠道业务系统,包括网银,清算、证券等交易系统和信息管理系统。”
有建行特色ITIL理念
建行股改后在新的经济结构下业务进入快速发展通道,总行数据中心也在不断地演变发展过程中探寻着适合自己的运维管理方法。相对同业机构而言建行总行数据中心的规模是比较大的,2002年数据集中工程实施以来,大量的信息系统部署到了总行数据中心。
张志深首先为我们介绍了建行总行数据中心运维管理的发展历程:“那时候我们数据中心不论是运维的底子,还是管理方面的经验,以及队伍建设的基础还是非常薄弱的,最近3、4年以来,随着我们持续不断对我们的运维管理的工作加以改革,不断的完善改进,现在基本上建立起来一套专业化的运维管理团队,日常运维工作正在朝着精细化管理的方面不断前进。”
谈到建行总行数据中心的运维理管理念,张志深说:“现在的管理理念是基于ITIL但是又不仅仅局限于ITIL,而是更好地把ITIL理念和建行实际情况结合起来,发展创新出的一套独有的运营管理体系、流程和制度。” 而这套有特色的管理流程正是基于张志深和他的团队根据前期建行总行数据中心运维管理的经验和教训总结而来。
2000年中国迎来了一个机房发展的阶段——现代机房,随着刀片服务器、虚拟化技术的出现,机房也产生了多样化趋势,高热密度机房、综合性的业务机房以及金融企业两地三中心的大型数据中心展现了机房多样化发展的趋势。新技术给建行总行数据中心带来的挑战如何应对?成了摆在数据中心运维团队面前最大的困惑。
面对创新的理念、设备和技术,需要在发展过程中不断调整数据中心运维管理的方法和思维才能适应这种变革。从而真正把握信息发展的方向,灵活地运作IT系统,让其实现对业务的创新与增值和IT自身价值的体现。深谙此道张志深正是在数据中心管理的工作中不断探索,总结出了一套建行的机房运维方法。
探索的道路怎能一帆风顺,张志深为我们举了一个例子。建行的数据大集中工程使得总行数据中心单位面积的电力密度、发热密度骤增,但当时由于对制冷系统在数据中心密度增大之后的影响预估的不足,而导致部分系统报警时有发生。当时的数据中心机房设计理念中,为保证断电后的设备持续运行,普遍将UPS使用的蓄电池配很大冗余,有的则能达到设备断电后一、两个小时的运行,但是空调的供电能力却少有人关注。而真正长时间遭遇断电,空调系统不能快速恢复的情况下,即使拥有长延时的UPS供电的保障,也往往不能按照设计时的预想正常地运转下去。
现在,建行总行北京、上海两地一万平米数据中心支持全系统的业务运行已显得的些局促,而在张志深看来建行总行数据中心基础设施的建设与监管部门的要求仍存在着一定的差距。“经过多次论证,从2007年开始,建行总行在北京和武汉新的服务中心已开始规划。这两个数据中心将满足建行未来20年系统发展的需求。而其中的北京数据中心将作为全行的生产中心,武汉将作为灾备中心,从而一方面解决了生产中心现有容量不足的问题,同时建立了完善灾备系统以满足监管部门对银行业务连续性的要求。”张志深说。
用信息系统运维理念管理数据中心
建行总行数据中心在2002年股改以来的快速变革,也为张志深积累了丰富的数据中心运维管理经验,物别是在大型高密度数据中心方面。建行数据大集中工程实施,引发了总行数据中心系统和设备的高度集中、电密度的增大。而对于常规数据中心运维来说,高密度数据中心在运维管理方面有着更高的要求。“现在很多的机房管理还维持在什么坏了修什么,什么时候坏了什么时候修的阶段,这已经远远满足不了大型数据中心运行的基本要求了。”张志深说:“大型或超大型的数据中心的机房的管理,应该要达到两个目标的要求,第一、提前能发现问题,消除隐患。第二、通过日常运维及时发现问题,快速定位问题,及时恢复故障。”
在张志深看来,未来的数据中心管理机制体系则应该围绕这两个目标建立。确立的目标应依托着怎样的日常运维观念和实施内容来实现?根据他的经验看来应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常施工管理等方面全方位地进行机房的日程监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的技术分析。
第二,要对数据中心的日常维护有一个明确的定义,常规操作包括的内容,如空调、UPS、供配电系统。定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪。
另外,变更管理需要更加地精细化,在变更的过程中会引申出很多新的问题,精细化管理能够促进提前发现问题,并消除隐患。发现问题时如何快速定位问题和解决问题?在张志深看,这是一个日常工作涉及的常规过程,全面、有效的监控系统和完善的应急预案是必备的。应急预案应是一个闭环管理,从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能是为了应付某个演练工作,制定后就束之高阁了,而是应该在实际演练和问题发生时不断地总结和完善。
张志深在采访的最后总结到,以建行的发展历程来看,完善数据中心运维管理机制,首先应对基础建设的运维制定标准。基础设施系统的完善为数据中心整体运行管理提供了一个必要的物质保证。而满足数据中心的可用性的要求,则是运维管理的更高一层要求。
“数据中心并不神秘,不要因为它的特殊性和专业性而恐慌。把机房当作一个信息系统来看,我们可以引荐信息系统的最佳管理实践和方法论,来做好机房的运维管理。针对它的特殊性不断修正我们的方法论。”张志深在节目的最后总结到。