业务连续性数据中心建设

2010-01-21 比特网编辑：朱伟雄,王德安,蔡

　　在当前剧烈的全球性市场竞争中，企业和机构的业务成效越来越依赖于IT服务，数据中心的业务连续性和可用性已经成为业务运营的生命线。必须指出，当前业务连续性的含义不仅仅指快速灾难恢复和漏洞消除，其范围已经从数据和办公恢复延伸到风险管理、应急规划、数据安全、新规章或法规遵从、客户数据保密性、场外电子存储等诸多领域。另一方面，随着虚拟化和数据中心自动化等技术的蓬勃发展，业务连续性与可用性的实施技术也发生了很大变化。因此，必须针对实际需要和可能、全面统筹规划并采用先进的技术加以实施，方能满足建设业务连续性数据中心的要求。这些将是本文的主要内容(详见[1])。

　　业务连续性项目决策和规划

　　实现业务连续性是一个复杂的系统工程，必须进行周密的统筹规划方能确保工程的成功。但是，在启动任何业务连续性规划以前，CIO们必须回答一个比任何业务连续性计划更重要的问题 — 为什么必须启动这一计划? 也就是说必须对启动项目进行必要的战略决策分析。为此，CIO们不仅需要了解本企业或机构在哪些方面存在风险以及风险究竟有多大，还需要确定保护级别和投资额度，找到投入和产出的最佳平衡点。最后，才能作出启动业务连续性项目的战略性决策并制定实施这一项目的具体规划(详见[1])。

　　业务风险分析

　　不同的企业所面临的业务挑战各不相同。在启动任何业务连续性规划前，必须进行深入的风险分析，确定企业或机构面临的各种风险出现的频度、范围和严重性：

　　• 频度：主要是指“日常性”运营中断(如由系统维护引起的中断)，这将耗费IT资源、消磨员工士气、降低客户耐心和股票价值。每次中断带来的损失可能微乎其微，但是日积月累损失将会变得非常巨大;

　　• 范围：主要是指对分布式运营影响较大的局部损坏，从纵向来说要分析可能受影响的系统层次，从横向来说要分析受影响的系统个数和业务覆盖面等;

　　• 严重性：主要是指罕见但却非常集中的“毁灭性”威胁(如自然和人为灾难)。它可以毁灭一个企业或机构，又最难预测，因此要求采取最广泛的预防措施;

　　确定保护级别目标

　　在制定与实施业务连续性规划时，采用什么技术与解决方案、投多少资金完全取决于企业或机构预期实现的保护级别目标。先确定恰当的保护级别，然后选择合适的技术与解决方案，包括保护的广度和保护的深度。

　　保护的广度指保护对象的范围，如系统组成部件、服务器和存储系统以及网络联接设备、数据中心建筑物、整个城市内所有系统以至全球范围内所有系统。

　　保护的深度一般可以用恢复时间目标(RTO)和恢复点目标(PRO)两项指标来衡量。前者指从灾难发生到业务重新正常运行所需的最长时间;后者指在不影响业务运营的情况下，能够容忍的损失如可以丢失的数据量、可中断服务的最大时间等;

　　找到成本与保护级别之间的最佳平衡点

　　显然，保护级别越高(保护的范围越广、允许中断服务的时间越短)，投资开销越高，可能蒙受的损失越小;反之，保护级别越低，投资开销也随之降低，遭受损失的风险却会增加。因此，在制定业务连续性规划时，必须进行周密的投入产出分析，结合企业的实际确定保护的范围好保护的水平，从而充分发挥投资效益，实现以最小的投资把风险控制在可接受的范围内。

　　制定业务连续性规划

　　在保护级别目标确定后，企业或机构的现状就是业务连续性建设的起点：即基础设施规划、安全程序、业务连续性计划以及连续性运营发展过程中所处的状态，并从如下三方面着手制定业务连续性规划：

　　• 高可用、安全的基础设施是实现数据中心连续性的基础，需要投资和选择合适类型的IT基础设施，使之具有极好的运行高可用性和连续性或容灾恢复能力。系统体系结构与技术选择有多种影响因素，包括应用、IT战略、可用的资源和技能等。选择技术时，必须切记可用性和业务连续性需求;

　　• 可用性管理是针对IT服务和整个数据中心IT确定服务质量(QoS)目标，关键的是确定面向可用性的指标，通常用计划内和计划外的宕机时间来衡量。为了对用户提供一致的QoS，特别是可用性，更需要对IT环境的主动管理。可用性管理的最佳实践是要求投资于IT服务管理(ITSM)的最佳实践，不管现在是否正在使用IT 基础设施库(ITIL)或其它方法，都必须利用最佳实践减少计划内和计划外停机的时间，减轻IT风险。可用性管理要从业务连续性规划着手，通过变更流程管理和管理仪表板(Dashboard)加强业务连续性和灾难恢复计划的常规检查，确保业务连续性计划正确执行;

　　• 业务连续性管理以制定业务连续性规划和当企业或机构遭遇危机或突发事件时如何保证业务连续运营为主要目标，因此，数据中心与业务与办公室灾难恢复任务成为企业或机构的IT战略的重要组成部分之一。当要求的恢复时间极短时，则必须强制指定一些专用的灾难恢复站点，使IT基础设施与设备以活动-活动(Active-Active)的工作模式形成运营环境镜像，以减少业务运营连续。当恢复时间并不是关键时(超过8小时或更长)，则建议使用第三方的灾难恢复服务。另一个最佳实践是将开发/测试系统与生产系统安置在不同的地点并配备恰当的资源，当需要时，使能为生产系统提供容灾恢复服务。

　　业务连续性实施技术

　　为了成功实现业务连续性规划，数据中心的业务连续性征程可能从以下方面开始，使客户能获得所需级别的业务连续性，奠定建立业务连续性数据中心的坚实基础。

　　• 数据连续性 — 业务数据是企业或机构的核心所在。大多数企业或机构的连续性计划都把安全性、数据保护与恢复以及最终的数据连续性作为起点。

　　• 应用与数据库连续性 — 实时的业务需求实时的IT。当今的每一项业务都具有一些重要的实时流程，而且都要求不间断的服务。

　　• 系统与网络连续性 — IT经理全面负责服务器、存储与网络。使得其它部门经理能够专注于业务流程、信息与通信。可靠的IT部件将帮助实现两者之间的沟通与联系。

　　• 数据中心、办公地点和设施恢复 — 面对大规模灾难，企业或机构需要平稳地过渡到二级辅助设施上，并需要一条清晰的恢复路径。适当的应急计划将使企业或机构避免受到灾难的冲击、防止业务陷入绝境。

　　数据连续性

　　大多数机构都会把关键业务数据的安全、保护和恢复视为迈向连续性运营的第一步。

　　有效的数据保护将采用高可用的容错磁盘存储解决方案和通过相关的备份软件支持实现自动化，采用不同的数据复制解决方案，将帮助我们实现性能与经济性的平衡。常用的数据复制解决方案有以服务器为中心的数据复制，以存储为中心的数据复制, 以网络为中心的数据复制,以应用为中心的数据复制等(详见[1])。

　　应用与数据库连续性

　　应用与数据库连续性是企业或机构连续性运营发展道路中的重要一步。当然首先要确定哪些关键应用和流程、哪些关键数据库需要连续性保护措施，然后寻找支持关键应用与流程及关键数据库连续运营的解决方案。在围绕连续性而设计的连续性解决方案中，数据库必须支持多个业务流程，恢复时间和恢复点目标都将十分苛刻。因此，必须利用基础设施和数据库供应商提供的专用参考配置才能实现这些目标。这些解决方案融合了高可用性、数据完整性、灵活性和可扩展性，不仅能够保护数据，而且更强调业务的连续性，即要求业务能在发生灾难后快速的恢复并继续运行。

　　事实上，在开发应用连续性解决方案过程中，一方面数据完整性是必须首先保护的(如上述的各种数据复制方法)，另一方面更为重要的是需要借助特殊的应用级的集群技术才能实现关键业务应用的连续运营。甲骨文公司开发的Oracle RAC(Real Application Clusters)解决方案即是实现此目标的最好方法之一，因为它为高端应用提供了业已证明的可扩展性、高性能和可用性。它支持在服务器集群上部署单一的数据库，并在不改变应用的情况下具有突出的容错能力和高性能与高扩展性。

　　系统与网络连续性

　　实现系统与网络上的业务连续性取决于计算、信息与通信的综合集成。反之，如果服务器、存储与网络各自孤立地提出要求则往往会适得其反。因此，为实现持续的、安全的业务运营目标需要建立系统与网络的连接，并围绕连续性特点设计系统与网络的基础设施部件，使之具有高可用性和灾难恢复能力。

　　在实践中，采用高可用性集群环境可以解决本地系统中的所有单点故障问题，而采用容灾解决方案则可带来最高程度的可用性。通过把高可用性集群的可用性能力延伸到远距离，企业或机构可以消除整个IT基础设施的最终单点故障，避免主要数据中心本身丧失工作能力。容灾解决方案可按照相隔的距离分为校园集群、城域集群洲际集群等，它们可提供数据中心之间高可用性与数据保护的容灾解决方案(详见[1])。这一成熟技术能够利用城市中或全球范围内的两个数据中心，提供之间的瞬间的业务和数据恢复能力，满足建立业务连续性数据中心的需要。许多企业或机构利用容灾解决方案在多个地点创建关键业务数据的实时在线副本来保护重要信息，提供完整地保存备份数据并自动更新的功能。