应急演练无对错
《中国计算机机用户》石菲 2006-08  

 
 
    应急演练,并没有预设的正确答案,每个人都可以通过应急演练得出自己的答案。在演练中,明晰自己的职责,熟悉应急流程和环节,学会在灾难发生时如何应对、如何反应才是最重要的。
 
                                        
 
                                           GDS万国数据主控人员和参加演练的人员在应急演练现场
 
    2006年7月19日星期三上午10:42,一辆满载油罐车在运输途中因速度过快在十字路口转弯处失去控制,撞到路边水泥墩后翻车,发动机舱严重损毁冒烟起火。车身储油罐密封损坏开始漏油,司机从驾驶舱逃生,油罐车距离2号供电线路某一高压变电机房25米。
 
    2006年7月19日星期三上午10:46,油罐车爆炸起火,半径50米内建筑物遭到波及。
 
    2006年7月19日星期三上午10:56,大火损坏了高压变电设施,变电站控制柜检测到异常情况自动跳闸,2号供电线路停止供电。消防队到现场扑救,10分钟后大火被扑灭,现场被封锁,供电部门到场等待维修。
 
    这并不是一个真实的场景,而是在中国第二界灾难恢复行业高层论坛上,由GDS万国数据服务有限公司组织的一次数据中心应急管理桌面演练。
 
    应急演练是检验、评价和保持应急能力的一个重要手段。可以在事故真正发生前暴露预案和程序的缺陷;发现应急资源的不足(包括人力和设备等);改善各应急部门、机构、人员之间的协调;增强公众应对突发重大事故救援的信心和应急意识;提高应急人员的熟练程度和技术水平;进一步明确各自的岗位与职责;提高各级预案之间的协调性;提高整体应急反应能力。
 
    对应急预案的完整性和周密性进行评估,可采用多种应急演练方法,如桌面演练、功能演练和全面演练等。
 
    桌面演练是指由应急组织的代表或关键岗位人员参加的,按照应急预案及其标准工作程序讨论紧急情况时应采取行动的演练活动。桌面演练的主要特点是对演练情景进行口头演练,一般是在会议室内举行。主要目的是锻炼参演人员解决问题的能力,以及解决应急组织相互协作和职责划分的问题。
 
    由于不受场地限制,业务运行不受影响,桌面演练是最常见的演练形式,这次的模拟演练采取的就是桌面演练的方式。
 
    感受应急演练
 
    2006年7月19日,为了让大家更好的感受灾难恢复和应急管理,GDS万国数据服务有限公司组织了一次由各个金融系统相关管理人员参加的应急管理桌面演练。
 
    参加演练的人员被分成3个虚拟的大组,每个大组又分为5个小组,分别是负责统一领导指挥企业突发事件应急响应处置工作,并对重大事件的处置策略进行决策的指挥协调组;负责对现场情况进行监测报告并协助指挥协调组进行沟通和联系工作的现场值班组;负责对紧急事件进行损失、发展态势、处置效果评估的评估策略组;负责对系统操作和技术手段实施的技术支持组;负责提供后勤保障的环境保障组。
 
    当所有参加演练的人员都明晰了自己的职责后,演练正式开始了。
 
    演练中虚拟的ABC公司是一家面向大众服务的综合性金融服务公司,在行业中具有较高的知名度。ABC公司总部位于北京,在全国拥有超过30个分支机构和2000名员工。
 
    ABC公司的业务运行严重依赖其核心IT业务系统,IT系统必须保证7×24小时不停顿的服务。如果IT系统发生故障停止运行,将直接造成业务停顿和客户服务的停顿,给企业造成巨大的损失。
 
    ABC公司自2002年实现数据大集中后在北京市亦庄经济开发区新建立了一个数据中心,并将生产系统全部迁入新建数据中心,原来位于朝阳区的生产中心转成灾难备份中心。
 
    新建数据中心建立了完备的环境保障体系,两路10千伏高压线进线分别引自不同的变电站,自启动式发电机能够在停电后30秒内自动启动并恢复供电,UPS系统可以保证现有IT系统2个小时的供电,所有供电设备实施实现了全双路冗余。机房中采用了完备的气体消防系统和精密空调设备,常年温度控制在22摄氏度。
 
    灾备中心面向企业关键业务系统建立了灾难备份系统,大部分中间业务系统将在未来的3-5年间建立灾难备份系统。
 
    一次常规停电的背后(场景1)
 
    2006年7月14日星期五上午9:00,ABC公司的数据中心接到供电部门通知,供电部门对部分供电线路进行计划性维修,其中数据中心主高压供电线路将于7月19日7:00至7月20日7:00停止供电。
 
    环境保障组在接到供电部门的通知后迅速将情况报告了指挥协调组和现场值班组,指挥协调组做出如下的判断:
 
    1、要求现场值班组加强系统监控;
 
    2、要求环境保障组与供电、物业部门密切联系;
 
    3、技术支持组做好支持准备;
 
    4、通知评估策略组;
 
    5、在全公司范围内进行停电通知,要求各部门做好准备。
 
    2006年7月18日星期二凌晨2:00,数据中心环境保障组根据通知要求,对主、备高压供电线路进行切换,1号高压线转为备用,2号高压线转为主供电线路。
 
    上午7:00,在数据中心环境保障组的密切注视下,1号高压线停止供电,2号高压线供电正常。环境保障组对备用柴油发电机组进行测试,发电机工作正常。
 
    本来是一次常规的停电,在切换到备用高压线路后应该就高枕无忧了,谁知道事情并不是那么简单。
 
    灾难发生(场景2)
 
    2006年7月19日星期三上午10:42,一辆满载油罐车在运输途中因速度过快在十字路口转弯撞到路边水泥墩后翻车,油罐车爆炸起火,半径50米内建筑物遭到波及。
 
    大火损坏了高压变电设施,2号供电线路停止供电。同时,数据中心环境保障组值班人员从集中监控系统上发现市电停电,柴油发电机在8秒内自动启动,30秒后开始供电。UPS系统正常,计算机房供电正常。
 
    经与供电部门联系,被告知事故较严重,修复时间目前无法判断,会进一步通知。
 
    现场值班组人员接到通知后,第一时间将情况反应到指挥协调组,指挥协调组经过讨论后认为:从切换到2号高压线路已经过去1个小时56分钟,离1号高压线路恢复供电还有10个小时零4分钟。而目前柴油发电机还能维持8个小时,UPS系统还可以保证现有IT系统2个小时的供电。
 
    也就是说,公司现有供电设备能维持9小时56分,如果1号高压线路按照原计划恢复供电而2号高压线路不能及时修复的话,数据中心将有4分钟的停电时间。
 
    于是,指挥协调组决定先由环境保障组联系供电部门,1号高压线路能否提前恢复供电,2号高压线路能否及时修复,同时检查油料备用情况。
 
    下一步通知技术支持组将与重要业务无关的设备停用,节省一部分电力资源,同时通知相关部门做好切换到灾备中心的准备。环境保障组与供电部门保持密切联系,随时监控最新消息。
 
    指挥协调组认为,如果事态没有进一步的恶化,在减少一部分次要设备使用的情况下,数据中心可以在不切换到灾备中心的情况下正常运行。
 
    谁知道,灾难的发展往往是出人意料的。下午,事情又有了进一步的发展。
 
    事态演变(场景3)
 
    2006年7月19日星期三下午13:00,现场值班组接到通知,发电机因燃料耗尽停止运行。经调查发现柴油发电机本身没有损坏,而是发电机的储油表损坏,剩余油料显示不正常。
 
    计算机设备由UPS进行供电,预计供电时间2小时,机房专用空调停止运行,同时机房环境温度开始上升,环境保障部门开始采取临时降温措施,派出人员外出购买油料。
 
    下午13:05,环境保障部门外购油料人员报告,0号柴油紧缺,正在向远郊搜索。
 
    环境保障部门和供电部门联系得知,2号高压回路正在抢修,预计1.5小时后恢复供电。
 
    指挥协调组经研究决定,供电部门预计1.5小时恢复供电,但并不能做100%的保证,要做好两手准备。评估策略组建议30分钟后进行灾备中心的切换,通知各个部门做好切换的准备。
 
    环境保障组得到供电部门通知,2号高压线路确保30分钟后可以恢复供电。于是,指挥组决定,继续要求灾备中心做好切换准备,但暂时不进行切换
 
    “切”还是“不切”(场景4)
 
    2006年7月19日星期三下午2:20,紧急降温措施开始实施,5分钟后温度不再上升。UPS供电时间剩余60分钟。
 
    环境保障部门得到消息0号柴油本市断供,紧急临市调拨需要明天早晨才能到达。
 
    环境保障部门和供电部门联系得知,2号高压回路预计30分钟后恢复供电。
 
    柴油发电机缺少油料不能正常工作,UPS供电时间仅剩余60分钟,如果2号高压线路能在30分钟后恢复正常供电,数据中心业务将不受影响。但如果2号高压线路在30分钟后不能恢复正常供电,则必须切换到灾备中心才能维持数据中心的正常运作。
 
    于是,切还是不切,成为了讨论的焦点。
 
    赞成切换的认为,灾难备份中心在正常计划性切换情况下接管企业关键业务支持系统进行需要60分钟的时间,非计划性切换可能会造成数据的丢失。
 
    所以,切换需要足够的反应时间。如果不在进行现在切换的话,如果30分钟后2号高压线路供电不能恢复正常,不仅造成业务的中断,而且失去了反应和准备时间,临时切换会造成数据的丢失。
 
    反对切换的人认为,不管多么详细充分的准备,切换到灾备中心都有可能造成数据的丢失。所以,不到最后一刻不应该轻易切换。
 
    对此,参加演练的三个大组意见并不统一。有的组认为宁肯中断业务也不能丢失数据,应该尽快切换。有的组认为切换有风险,能不切换就不切换,应该坚持到最后的一刻,30分钟后如果供电不能恢复正常再进行切换。
 
    没有正确答案
 
    对于切换的争论,演练的主持人GDS万国数据服务有限公司咨询与方案总监汪琪表示,应急演练,并没有预设的正确答案,每个人都可以通过应急演练得出自己的答案。在演练中,明晰自己的职责,熟悉应急流程和环节,学会在灾难发生时如何应对、如何反应才是最重要的。
 
    通过演练,也暴露出一些问题。比如说有一些组把问题节流的时间比较长,反映时间太慢,延误了其他小组的反应时间。
 
    还有,没有严格按照职责定义,做出了超出自己的职责范围的判断和行为。汪琪说,在现实生活中如果真正发生灾难的话,职责不明,缺乏信息的流动和沟通只能带来效率的降低。每个人都有自己的职责,不要等待别人的指挥,而是应该充分自主发挥自己的作用。对待信息的反馈,应该主动传递而不是被动等待。