王春自己的做法:不跟四大行搞攀比
“以前灾备系统都是四大行(国有四大商业银行)做,现在(我们)采用适合自己的技术,自己也能够做到,(保证)最低的投资和运营成本。”王春表示,采用更经济实惠、部署更快的CDP解决方案,对于宁夏银行来说,其实完全能够达到保证业务连续性要求的条件,四大行有四大行的做法,宁夏银行有宁夏银行自己的做法,“不跟四大行比,把运营做到最理想的状态就好了。”
但在提到建设自己的灾备系统,尤其是选型的时候,王春却闭口不提“灾难”二字,他说,这是因为他自己觉得,大的灾难也就是占整个IT系统风险的百分之一二,过分注重大型灾难,“是把99%的投入去控制1%-2%的问题。”
随着多年的研究和不断的学习,宁夏银行对风险的认识有了比较清晰的概念,王春认为,数据风险的种类就是三种:硬件设备故障、逻辑故障、灾难事故,但在王春的概念里,这三类风险,最常见的就只有前面的两种。
“在我的概念里,“灾难”最常见的就是前两种,从硬件设备故障来说,硬件设备、人为因素,这些都基于使用环境决定,日常我们要去巡检、维护,保证正常运营,但是设备故障总是在所难免,这占到一半。”此外,就是逻辑故障,类似数据库崩溃、数据链路故障这些问题,也能够占到IT系统风险的一大半,这两项加起来,基本上就是宁夏银行所面临的所有问题。
因此,王春认为,宁夏银行所需要的就是全面防备前两种风险的技术——能够解决设备故障和逻辑错误的风险——同时实现宁夏银行所承担得起的灾难备份,宁夏银行要的并不是能够和四大行或是“行业领先”攀比的灾难备份系统,而是一个切实有效防范最大可能发生的日常灾难保证业务连续性运行的灾备系统,于是,飞康的CDP解决方案走进了王春的眼中。
王春说他只有简单的两个要求:“占用系统资源越少越好,发生故障切换越快越好。”
在谈到飞康的CDP解决方案时,王春只是轻描淡写的说,能够提供CDP技术的在这一次项目招标中有很多家,CDP并非是高不可攀或是什么神秘的技术,谈起为何做出最后的选择,王春说,“产品的功能还是有差别的。”
显然,从4月24日那天的情况来看,飞康CDP以实际的表现,应该是令王春和在座的十几家区域性商业银行的来宾满意了。
演练实况:从紧张到轻松的一个小时
“演练是对灾备的最高的要求。”王春在接受媒体采访时这样表示,这个西北汉子却毫无自夸的表情,在灾备演练几个小时前接受采访的王春,当时还显得略有些紧张,虽然偶尔会因为媒体的某个问题而眼前一亮,但很显然,最让他牵挂和放在心上的还是灾备演练的现场。
在演练开始前,王春详细的介绍了这次演练的两种“突发情况”:数据库系统瘫痪和数据中心发生火灾——前者模拟宁夏银行生产中心数据库系统发生崩溃瘫痪的严重故障,测试根据需要启动应急响应流程,进行本地的数据库系统恢复;后者模拟生产中心发生一场大火,测试根据应急流程进行从银川到西安的异地切换。
把真实的业务终端搬到演练现场,使用真实的数据和系统操作,这都是很少见的
从王春到演练的技术小组、观察组、业务小组、跟踪记录小组到文档管理小组,宁夏银行将这次演练彻底当做真实突发的事件而非“模拟测试”来处理,甚至连测试用的都是真实的生产环境:真实的数据库、真实的在线系统、真实的存取款记录和真实的柜员终端。
虽然火灾场景的恢复进度流程与本地数据库瘫痪略有不同,但整个过程基本上都分为:接到灾难宣告、CDP数据提取、主机系统加载、数据库启动、业务验证等阶段(火灾模拟则增加了灾备网络检查和前置变更环节),在整个演练过程中,从业务终端发现异常,到管理中心提交报告,再到冷静的操作与系统切换,一切都显得不慌不忙,就好像是一场平常的模拟。每个在座的人却都知道,这样一场演练,其实颇有些“不成功便成仁”的味道。
演练中,技术组的同事们却显得颇为轻松,但在之前的几天,他们几乎是每个深夜都在做准备工作。
在平静的演练下其实在座的人也都发现了三点不同寻常的地方,第一是全程全部是宁夏银行的员工在操作,全无来自飞康公司的协助;第二是全部步骤都衔接畅通,流程化管理十分有效;第三点当然是速度,整场演练,两个场景加起来不过用时10分钟:
第一场数据库瘫痪演练,24日15时53分开始,至57分便已成功。
第二场火灾演练,24日16时24分开始,至30分,文档管理组便已记下成功切换的时间。
演练成功的证明,进度记录表
两场演练中,伴随着IT人员通过拖曳鼠标,选择数据恢复点,将数据恢复到系统运行的某一个正常时刻,两场演练的时间加起来甚至都不到20分钟,如果刨除行政请示、故障判断,用来恢复的操作时间,甚至在几分钟内便可完成——整个过程就像是重放一盘录像带般简单:选择时间,倒带,然后正常播放。
事实上,在第二场演习成功之后,王春和他的团队在不经意之间,还完成了另外一个创举:宁夏银行的这场演习是区域性商业银行中,第一个具备数据损坏修复演习场景的——演习中本地数据中心的数据库已然崩溃数据中心已经烧毁——这在整个灾难备份的应用领域,曾经都是一个难题,而现在,王春和宁夏银行的IT团队竟然在数据库崩溃,数据损毁的时候,仍然成功的恢复了数据以及业务系统——你能希望的当然是拥有这样的一个保证业务连续性的系统。
后记:灾难恢复 不复杂但要用心
人们不禁在问,此前从未做过灾备演练的宁夏银行如何做到这三点?王春在采访前其实就已经“泄了密”。
“演练全部是自己的人员完成。”在采访时王春透露,“体系结构很简单,其实就是个软件,不是复杂的硬件。”王春说,飞康CDP归根结底就是去操作一个恢复软件,做些设置,做些操作,其实非常简单,经过培训,所有的流程都能够由宁夏银行自己的人员完成,根本没什么难度。
对于流程化管理,王春表示,整个灾难恢复的流程,都是他和信息技术部的同事们不断完善整理出来的,要“用心”的根据宁夏银行的情况,整理出适合自己的流程,然后才能够在关键时刻不出问题,“灾难恢复归根结底是个流程问题。”王春是这么觉得的。
而对于切换的速度,王春在采访时由于还未进行演练自然无法回答,但具备了独立灾备切换能力的宁夏银行团队,以及流程化严格约束的管理,再加上成熟的CDP业务连续性技术,答案不过就是“一层窗户纸那样薄”。
美国飞康软件公司中国区技术总监颜军,演练中他基本上是“袖手旁观”偶尔解答几个技术问题
此外,值得注意的是,在有限的投资下完成的此次业务连续性系统建设,其基于的是一套完成的、能够在统一的管理平台下完成的灾难恢复操作,而非复杂和多管理界面的烦冗程序。尤其是,这套系统在平时完全可以替代IT系统中的备份系统,成为企业备份和容灾系统的一体化替代解决方案。与此同时,完成本地和异地两个现场演练的宁夏银行,也证明了飞康CDP是一套“能够同时解决本地和异地的不同容灾需求”的解决方案——从备份到容灾,从本地到异地,业务连续性从此有了一整套分层的具有高可用性的信心保障。
宁夏银行的这样一次演练,看起来虽然只是十几分钟内的事情,但是却说明了一个非常重要的问题:对于区域性商业银行来说,灾难恢复并非遥不可及,而技术也并非是万能的能够解决一切问题和需求,完成一个合格的灾难恢复系统,除了技术,关键是要用心,从人员培训、流程管理、成本考量、系统实施,以及灾备演练上,都要投以百分百的努力和认真,而这一点,正是王春和宁夏银行信息技术部的同事们最为强大的地方。
虽然他们并没有如四大行那样多的资金,虽然他们仅仅只有23个人,虽然宁夏银行并没有采用神坛上最顶级的技术,但宁夏银行仍然完成了一个符合其要求并真实可靠的灾难恢复系统——成功的灾难恢复系统,除了技术、资金、人力之外,最需要的,还是那一份责任心以及独立的思考。
宁夏银行(原银川市商业银行)是银监会批准设立的由宁夏回族自治区两级政府和企业组建的一家股份制商业银行。成立十多年来,在各级党委、政府的支持下,在社会各界的关心下,宁夏银行始终坚持“服务地方经济、服务中小企业、服务城乡居民”的市场定位,以支持地方经 济建设为己任,为促进地方经济社会发展做出了突出贡献。
宁夏银行为适应各项业务的迅猛发展,支撑跨区域经营战略的顺利实施,保障核心业务系统安全、稳定、持续地运行,增强抵御灾难和防范系统故障的能力,2009年宁夏银行将应用级灾备项目建设列入IT建设计划,并且灾备中心选择在了800公里之外的西安。经过谨慎、严格的市场和技术调研以及对于金融系统灾备建设以往经验的深入分析,宁夏银行将飞康CDP技术的精准任意时间点定位、分层次本地/异地双重恢复体系、全部灾难的防御能力、设备故障的业务不停顿能力、远程带宽精简技术引入到灾备体系的技术架构中。随着2010年4月24日实战演习的成功,宁夏银行容灾项目的实施画上了圆满的句号。
内部故障比大型灾难更难防御
宁夏银行在灾备系统的筹备过程中认识到:大灾的防御固然重要,而高发的故障防御更是不能疏忽,这一点多家银行教训深刻。如果建立异地灾备体系之后,灾备系统得不到有效利用,故障发生仍然只能听天由命,这样的灾备体系实在是巨大的浪费。宁夏银行在经过多方考察后(对于多项灾备技术进行了考察),认为在灾难防御范围上唯一能够达到全面灾难和故障防御的只有飞康CDP持续数据灾备技术,这一技术不仅能够防御大灾,而且能够将存储硬件故障和逻辑故障在本地就可以轻松修复(不会出现数据丢失),其独到的历史录像技术达到了精准定位历史轨迹的程度,在各种灾备技术中令人耳目一新。
利用飞康CDP实现本地、异地分层恢复体系
针对宁夏银行的核心业务系统灾备项目,飞康设计了一套灾难和故障防御并举、用户行使恢复地点选择权、任意历史点恢复、用户自行管理的集备份与远程容灾于一体的综合数据保护解决方案。在生产机房通过部署飞康CDP管理器网关,对于核心业务系统提供本地的持续数据保护。在应用级灾备的机房,同样部署飞康CDP设备,形成了异地的连续数据传输。一旦发生生产系统故障,用户可以选择在本地立即恢复运行(一般在10分钟以内),也可以选择利用异地中心的数据进行应用级恢复。尤其是存储系统在发生故障时,甚至于业务系统都不会发生中断,彻底解决了存储故障这一最为严重的“杀手”,在出现数据库瘫痪时,只需要启用飞康技术的“录像”精细化回放技术就可以在本地大幅化解风险,恢复系统。
在建设过程中,飞康CDP持续数据灾备技术全部实现了其表述的各项特征,例如利用带宽精简技术达到了4M带宽的灾备复制,利用录像定位技术实现了数据库损坏、丢失等各类逻辑故障瞬间修复的能力,差异比对技术、快速写缓存技术、存储设备故障业务不中断等等,均得到了充分的验证。整个项目的实际实施速度极快,有效实施仅为2天。
宁夏银行业务连续性架构
灾备系统异地实战演习成功
为有效验证灾备系统的各种防御水准,宁夏银行在生产系统上大胆采用了不同的灾备场景(数据库瘫痪、火灾)进行了800公里的异地切换和本地应急的实战演习,有效地验证了灾备技术有效性和应急体系的完备性。2010年4月24日,在其科技人员自行的响应体系下,数据库瘫痪和火灾的不同灾难场景,灾备应急全部成功,异地切换、本地恢复全部成功,将金融系统灾难恢复体系推向了新的高度。
行业
金融业
客户背景
宁夏银行(原银川市商业银行)是银监会批准设立的由宁夏回族自治区两级政府和企业组建的一家股份制商业银行,为自治区经济发展做出了重要的贡献。
IT 环境
IBM AIX UNIX
Informix
EMC DMX800
问题与挑战
业务压力大、数据量积累多且增长迅速
故障的防御能力欠缺,出现故障无法实现快速恢复,无法保证业务持续运行
没有异地灾难快速恢复系统,无法防制大型灾难
飞康解决方案
FalconStor CDP
持续数据本地保护
持续数据远程复制
录像历史轨迹回放技术
效益
多历史点数据保护与快速恢复,使管理员可以从容应对数据库逻辑错误、崩溃、人为误操作、病毒黑客等诸多问题,有力保证业务连续性
异地灾难快速恢复系统,全面防御各类大型灾难。
存储设备遭遇灾难时,确保业务不停机
录像级别的恢复能力,可以将数据恢复精细到任何一秒钟
管理简单,备份策略灵活,大大简化数据管理、数据备份、灾难恢复三大工作的流程和时间