如何应对数据中心突发事件

2017-04-06 机房360 编辑：佚名

数据中心运维团队需能够在没有任何预警的情况下，能够迅速、有效地应对突发状况。对于不可预见的问题，故障、危险可导致人身伤害或宕机的情况，都需有应对措施。只有做好充分准备，才可以迅速响应，最大限度降低突发状况对数据中心影响，并有效防止事故再次发生。文章描述对关键设备有效应急准备以及响应战略体系。内容由7部分组成，分为3类：紧急响应程序，紧急演习和事件管理。

　　即使经过专业设计与Tier IV认证的数据中心，也不能保证其100%的可靠性。由于IT系统意外停机，业务中断始终是一种潜在风险。做足准备是一种最好的抵御方式，并有助于确保及时应对。

　　准备工作从为确定高风险故障(例如冷却设备受损，发电机启动失败等)到开启紧急操作程序(EOP)，还需要制定和演练升级程序，以确保通知指挥系统，并随着形势的发展调派资源。

　　应定期对运维团队成员进行情境演练，评估团队面对突发状况的反应与应激能力、个人对应急事件响应的状态与效果。一旦遇到突发状况，为降低其带来的影响，应在事后进行充分分析，找到发生事件根本原因，分析响应应急措施在处理这状况时的效果以及待改善的地方。对重大设备事件故障分析是全部完善过程的基本组成部分，最终目的在于降低故障率，并提高应对未来发生不可预见事件的处理速度。

　　表1：简要概述数据中心有效应急准备和响应计划的主要方面。有七部分，被分组在三个分类中。

　　首先我们来看EOP，需要对突发状况现场进行快速、安全地隔离，同时尽快恢复服务、提供急救是紧急响应流程中的最重要与关键的方面。

　　接下来，危机管理计划(CMP)被描述为处理数据中心紧急情况、危机的总体计划，如果不定期检查，将导致灾难。(关于术语“危机”和“灾难”的解释，见下)。最后，应急演练和事件管理的作用被解释为一个方案的重要方面，以便为问题不断做好准备，并更好地发现问题在他们成为一个危机或更糟的，一场灾难。

　　一、应急操作流程

　　*名词释义：

　　危机：遇到紧急的，重要事件，如不能及时响应，将最终导致系统中断、业务亏损或人员受伤。

　　危机管理计划(CMP)涉及准备，发现和缓解危机。

　　紧急操作程序(EOP)用于应对危机，因为它正在发展以防止灾难的希望。例如：UPS冗余出现故障，发电机燃料用尽，UPS电池组故障等)

　　灾难或紧急： - 导致系统严重损坏、停机，业务中断或人身伤害的事件或情况。

　　一、应急操作流程(EOP)：用于应对灾难或紧急

　　示例：在UPS电池能源耗尽，火灾，开关设备时出现电弧爆炸等任何可能导致立即停机或受伤的情况。

　　(说明：构成“危机”和“灾难”的事件因数据中心自身不同而不同，取决于各自认为关键或紧急的事件。)

　　紧急操作流程(EOP)：

　　被就用于处理危机和灾难。 EOP流程应作为文档被留存，详细记录针对应对危机或灾难被批准的流程。响应流程包括：如何安全隔离故障;如何恢复服务或冗余。 EOP旨在使运维人员对遇到的突发事件做出正确的反应，从而达到安全的目的，并最大限度地减少紧急情况的持续时间与影响。

　　EOP具有多重功能：

　　首先，它帮助运维人员尽快将受影响的系统置于受控或稳定的状态。

　　第二，它提供逐步指导，以确保所有活动都以安全和有效的方式进行。这样做是为防止进一步(或范围更广的)的服务中断，设备损坏或人身伤害。这些负面或可能甚至毁灭性的影响是由于以不受控制的方式执行工作，通过省略必要的步骤，或者通过不正确地执行，或半心半意地执行。

　　第三是作为新操作员的培训工具。它们应被用作在员工培训计划中进行场景演练和测试的基础。在客户或管理层审计或评估时，它们也很重要，以证明有效的应急准备和响应。

　　将EOP等同于标准操作程序(SOP)是一个常见的错误。 SOP为执行日常正常操作类型任务(例如将UPS置于旁路或其它维护任务)提供通用指导或指示。

　　SOP涉及如何操作或维护系统。它没有描述如何处理和从故障或紧急情况中恢复系统。

　　如果运维人员仅仅依靠SOP来了解设备如何运行与维护，其结果就导致应对紧急情况经验不足。导致故障发生原因与产生的后续影响通常与多个系统有关。另一方面，SOP通俗点儿说，就是固定的流程，灵活性不强。因此，SOP对于运维人员了解各个系统之间相互联系而言，并不实用。不过，具备这些知识却对于快速诊断和解决问题至关重要。此外，没有针对高风险故障情况的特定EOP流程，无法提前进行模拟演练，无法为此状况做更多准备。

　　应将EOP文档副本流程张贴在执行区域周围。正本文件放在办公室保存。持续跟进EOP使用情况、实时根据需要修订EOP，确保使用执行时流程清晰简明。

　　EOP是在故障发生后，保障系统运行稳定、和恢复系统的最重要的工具。EOP执行过程中需要运维人员具备丰富经验、参加过EOP模拟演练的，从而在EOP执行过程中明确他们担负的责任与任务，可以做到迅速响应。在开发EOP之前，先将所有可能的、或高风险的故障情况列出一份清单。最常见的故障见表2。应为每一个故障写一个EOP。当然，运维人员和他们的经理不能预见所有的问题，但他们可以预估最坏的情况，做好最坏的准备。

　　所有这些文件都应被妥善保存。EOP执行只能由在现场的运维人员进行操作，外部承包商在某些情况下可以在运维人员指导下执行EOP中一些步骤。经验表明，经过一定培训的运维人员，可以有效地抵消遇到紧急情况下心理的恐慌感。对运维人员而言，做足充分准备意味着在千钧一发的那一刻，运维人员根据现场突发状况迅速做出判断，可以在紧要关头为数据中心挽回一部分损失。

　　有效的训练方法是情境演练，通过预先设定好的情境，模拟故障发生时的情境。必要时，可以使用道具(如彩色便利贴)来模拟面板指示器或开关位置，以此锻炼运维人员的操作能力并评估他们对现场问题的反应能力。

　　表2：

　　2.危机管理计划(CMP)

　　危机管理要素：

　　规划

　　程序

　　实施

　　测试和培训

　　危机类型

　　灾难类型

　　第一反应

　　通知

　　咨询

　　授权

　　缓解

　　迭代

　　事件后分析

　　报告

　　危机管理计划(CMP)是一系列规定与流程，是帮助运营商在遇到真正紧急状况或灾难时，提前做好准备、了解如何应对，根据EOP流程进行应对。在危机管理的过程中，CMP应对所有参与者尤其是利益相关者进行密切审查。这包括运维人员，运营商，以及在数据中心内工作的IT经理以及和他们团队的工作人员。该计划旨在指导工作人员发现、预防以及应对各种危机状况，最终目标为数据中心提供一个安全，响应迅速、可靠的执行方案，尽最大限度的为防止意外状况演变成一场灾难做出努力。

　　准备和预防

　　最好的危机管理工具是什么? 是预防。众所周知，大部分数据中心业务中断是人为错误导致的直接或间接的结果。这些错误大部分发生在工作人员在对设备进行安装与维护期间，由于操作不当导致的意外状况发生。

　　为尽可能最大限度减少此类错误，运维人员应接受在专业领域方面的密集培训，以确保在对设备进行维护与巡检时，表现出操作的专业水准，减少人为故障。应将为数据中心所有工作内容建立标准操作流程作为首要目标(标准操作程序或“SOP”)，工作人员可通准操作流程对设备进行维护、保养，降低人员操作风险。建议将建立的标准流程全部由业界专业人士进行测评，并由业界专家对其技术与流程方面的精准性进行额外审查。尤其要对各种风险情况进行合理分类，做好安全准备，工作任务排序以及退出流程。

　　另一项重要的活动是识别极有可能发生的故障或间接导致系统发生故障的模式，这是是否使用紧急操作程序(EOP)的先决条件。这项练习不仅确定在此之前有无必要执行EOP，而且也将有助于防止此类事件发生，这是做好识别与准备过程的必然结果。流程一旦建立，需定期做EOP演习，提前协调工作人员按时参加。

　　检测和事件分类

　　当危机发生时，如何识别危机?不是所有的事件一眼就能看出机关。通常，一个完全可控的情况会随着时间的变化演变成一场危机，这会让运维人员措手不及。对于运维人员而言，识别事件的早期预警标志以及了解各类设备临界值时很必要的。

　　紧急情况和危机时有区别的。通过使用已经通过审核的流程来管理的紧急情况通常不会被视为危机。例如UPS冗余出现问题或空调机组冷量不够可能被认为危机，按照既定流程执行EOP，则可以以有序、受控的方式解决这次事件，而不会等到发生宕机或伤害的灾难级别。

　　危机特征就是失控;如果突发情况已超越可控管理范围，现场局面已构成威胁，这种情况确立为危机。危机的另一个特征是意外状况造成损害严重，有可能危及到整个系统。例如，关键负载突然中断，虽然由与之对应的响应计划，但遇到这种状况需确立为危机。

　　数据中心基础设施管理(DCIM)软件工具可以有效帮助数据中心对环境设备进行集中监控，了解数据中心设备系统状态变化和报警的有效方法，从而在遇到危机或灾难的问题和状况时，能及时通知运维人员。DCIM软件同时还提供变更管理、工作订单以及模拟添加、移动和其他更改等功能，确保操作不会导致任何问题。

　　在危机或灾害的情况下，快速识别分类事件的能力是危机管理中至关重要的第一步，这对及时响应以及策略性的沟通是有必要的。

　　反应和缓解

　　一旦危机或灾难被宣布，通常，运营商会马上采取行动解决这个问题。然而，在充分了解情况并制定周全的响应计划之前，立即行动有可能导致进一步危害或停机的风险。除非在事件非常明显的情况下才需要立即采取行动(例如火灾)，合理的行动是围绕发生的事件制定计划，并与相关专家以及利益攸关方共同制定。从长远来看，将时间放在制定计划上，比起仓促行动更能为数据中心提供更安全、可靠以及更持久的解决方案。

　　当然，如果对人身安全、配电设备造成直接威胁，应立即采取行动，降低设备损失。如果某人正在或即将受到伤害，就需要立即采取行动，无需通过审议，只要这种草率行为不会伤及任何人。同样，如果有手段控制火情或者用安全手段熄灭它，立即采取行动是可行的。这只是两个可能的例子，做出第一反应是合理、谨慎的。话虽如此，当遇到需要立即做出第一反应的情况，都需特别小心。只有当风险高，并且能预见后果，才可考虑立即做出反应行动。

　　做出第一反应行动后，首要任务是立即对事故进行评估，需将关于情况涉及的范围、严重性等所有信息进行评估，同时将设备的状态、稳定性也进行评估。必须快速收集这些数据，以及随着事故变化不断更新数据，以便对事故做出适当补救措施，同时保证沟通的有效性。能够做到这一点的运维人员，都经过专业知识的培训，以及大量的情境演练，具备良好的心理素质，才能应对这样的场面。

　　恢复与分析

　　一旦事故解决，应将事故分析报告第一时间发给相关部门人员，最好是在事件解决方案制定后的一星期内发出。故障分析报告应包括：

　　主要原因分析：

　　• 经验教训报告 :参与者反思事件如何发生，以及从中学到的教训

　　• 执行过程: 包含具体建议和一系列行动，以改善团队对特定事件的响应。

　　• 对现有运营商以及新员工持续培训，确保他们了解行动的意义与价值。

　　• 所有这一切旨在防止同样的危机或紧急情况再次发生。

　　升级程序：

　　随着情况从正常到紧急再到潜在危机，甚至到灾难级别，随之带来的问题就是对设备升级。这是为保证设备在恰当的时间内获得恰当的知识与资源。升级管理可能是一项紧迫的任务，但正确的流程将有助于其尽可能轻松有效地管理升级。

　　对业务进行适当升级以及 “幸免于难”是应急准备与响应策略的一个重要因素。运维人员，团队管理层，客户和供应商之间的有效沟通是确保情况已受到控制，所有相关资源都集中在事件的处理上。虽然没有单一的逐步升级程序保证解决每个问题，但有一些基本要素可以确保内部流程成功。为升级程序提供框架，下面的表3示意升级过程与时间示例。它可以被修改，从而适应任何组织具体要求与期望。