在业务连续管理领域,2007年8月将发生一件非常重大的事件:全球第一个业务连续性管理的框架标准BS25999将正式成为认证标准。我们特别邀请British Standard Institution撰文介绍BS25999的相关情况。
引言
作为一个可信赖的组织,应该具备能力在任何情况下都能履行自己的承诺,包括面对不可抗力。当重大灾害发生时,如果每一个负责任的组织都能履行自己正常时的承诺,这个社会就会联结成为一个信赖社会。这些对于公众服务性的组织尤其重要,例如民航、铁路、银行、电信、医疗等行业。对于非公众服务的组织,应该进行什么样的准备呢。让我们从最近发生的事件中来思考这些问题。
2006年12月末台湾发生地震。此次地震对于身处大陆的民众没有直接的生命财产损害,然而,随后的若干天里,跨国公司或者为海外客户提供信息类服务的公司,业务受到了不同程度的冲击。引述一位为海外客户提供基于网络的支持服务的主管的话:“那一天,我的电话都被打爆了,客户不断地问何时可以恢复,而我却不知道当时到底什么情况导致了网络中断,我不断地催促IT,IT也不能给我任何答复。我希望能安抚客户,但是我没有准确地信息能解释发生的状况,客户接受了几个版本的解释之后,几乎要失去了耐心”。
2007年3月初发生在东北的暴风雪,曾一度导致供电系统中断,对于那些数据中心位于停电区域的单位来说,当时的情况非常紧急。“我们几乎要启动灾备预案了”一位保险公司的信息主管对媒体如是说,“不过好在两个小时后供电恢复了。”这是一家已经有所准备的组织,因此他们对媒体说,当时虽然惊险,但是并未慌乱。
我们继续反思还能回想到2001年发生在美国的“911”和2003年的SARS。“911”发生之后,据说有1200多家组织受灾,其中一半以上的企业因为信息的丢失而停止甚至关闭了业务。在SARS发生时,我们不同城市不同组织都分别有各自的对策和方案,有的企业因为这种公共危害事件而停止了经营,而有的企业却在这种事件发生时拓展了业务领域,更多的组织,承受了当时的损失,等事态正常后开始了逐步的缓解和恢复。
对于灾害的应对和准备,从国家角度也是极大的重视。2003年,国信办出台27号文件,提出了对信息安全的保护要求;2004年发布的《关于做好国家重要信息系统灾难备份的通知》等重要文件都进一步将有关战略进行了细化,并明确了金融、电信、证券、保险、民航、铁路、税收、海关等八大部门和广电网、电信网、互联网三大信息基础设施等,都要做好灾难恢复的需求分析工作和加速推进灾难恢复基础设施的建立;2005年,又出台了《信息系统灾难恢复指南》,作为对灾备的指导。而且,国家也将会出台有关信息系统灾备的标准。
那么,面对灾害时,我们到底怎么做才能保持有条不紊,才能让业务损失最小,才能让利害相关方持续保持对我们的信心呢?答案就是进行业务连续性的管理,也就是在灾害发生之前进行准备,当灾害发生时从容应对。BS25999标准作为全球第一个业务连续性管理的框架标准,为我们提供了一个构建BCM的指南。这份标准的前身是公共可用指南PAS 56,在2006年底升级为BS英国标准,并将于今年8月推出相应的认证标准。
灾备是整个业务连续性管理中最重要的一环,然而仅有一套灾备计划是远远不够的,让我们来解读BS25999,认识一个完整的业务连续性管理方略。
BS25999把业务连续管理框架如图一所示分成六个部分,分别为BCM管理程序,理解组织,决定战略,开发并实施BCM响应,演练、维护和评审回顾,以及把BCM植入组织文化。参考这六个步骤,组织可以建立自己的BCM管理框架,在正常是做好准备,在灾害发生时能够从容应对,灾害后能尽快恢复。
图一:BCM管理框架
理解组织
理解组织,需要用到业务冲击分析(BIA)和风险评估(RA)等工具和手段,找出关键服务及其依赖因素所能容忍的损失。包括下列内容:
- 去分析自身的业务和所依赖的业务环境,找出关键服务/产品及其依赖因素(资源、资产、活动等);
- 识别出该关键活动所能容忍的中断时间,以及业务所能容忍的最低服务水平;
- 从组织业务目标、合同义务和法律法规符合的角度,为这些关键业务按照恢复的优先级排序;
- 分析恢复这些关键活动及其依赖因素时所需要的资源;
- 最后分析这些关键业务及其依赖因素可能遭受的威胁。
- 采用适当的控制措施,降低威胁发生的可能或者发生之后的影响;
- 考虑预定的弹性恢复机制和缓建方案;
- 在事件发生时和发生后,提供关键活动的连续性;
- 分析那些尚未被识别为关键活动的部分。
- 人(People):核心技能和知识的维护,降低对关键人员的依赖,把关键技术分散到不同的人;
- 场所(Promise):当常规场所不能进入时,是否有自建的备用场所可用,是否有外部租用的场所可用,是否可以远程工作;
- 技术(Technology):关键技术设备设施的准备,尤其是那些单一的,采购周期长的设备。包括IT设备和技术的预备;
- 信息(Information):确保业务所需的信息被正确地备份和保管,并能够被恢复到需要的时点;
- 供应(Supplies):对于关键服务所需要的供应品,有着怎样的储备,是否可以多点供应,是否可以有替代品。对于供应商而言,如果有着唯一的依赖供应商,则应该考虑预先的准备;
- 利害相关人(Stakeholder):他们是谁?他们需要获得怎样的信息?他们需要怎样的保护?(注:包括员工)
- 把BCM植入组织文化
这样一整套分析之后,就对组织的业务连续性要求有所了解。接下来,就应该制定BCM的战略。
决定BCM战略
BCM的战略制定通过下列方面来进行:
需要考虑下列几个方面的资源准备战略:
此外,在BCM战略阶段,还需要考虑应对公共安全事件,考虑获取这些信息的渠道,与政府单位的沟通和报告渠道和方法,寻找能从政府单位获得的帮助。
开发并实施BCM响应计划
进行完上述两步之后,就可以开始制定遇到灾害时的响应计划。如图二所示,事件发生之后,我们可以把随后的动作分成三个阶段来看待:首先是应急响应阶段,在灾难发生的几分钟到数小时之内,包括确认事件影响的范围,考虑控制和制止事态的发展,与利害相关方沟通。其次是业务持续阶段,在灾难发生的数分钟到数天之内,根据预先的准备,在一定程度上保持业务,并启动恢复的计划。最后是恢复阶段,在灾难发生几周到几个月的周期内,按照预先的准备,把业务全部恢复到原来的水平。
在这些阶段里,需要预先写好的步骤详细的事件管理计划IMP和业务连续性计划BCP来指导所有的事项。这些计划中至少要包括:启动的条件、任务和行动列表、应急联络方式、人员的活动、媒体的沟通、利害相关人的关注、恢复所需要的资源等。
图二:事件时间图
演练、维护和评审回顾
由于BCM的内容中,绝大多数是分析出来的,包括IMP和BCP都是头脑思考的产物,因此需要测试和演练来验证其可执行性和适切性,并把所发现的一切问题输入到改进当中。演练的理想方式是真实地全盘演练;在资源有限的情况下可以让步到模拟环境演练或者只对关键部件的演练;对于一般性的业务,也可以采用排练的方式演示计划的可操作性;最低的演练也需要对这些计划进行脑力激荡式的挑战,寻找其中不适切的部分。
针对可能的变化,需要有专门的角色来负责对这些计划的维护,以保证信息的更新,计划的持续适用。
最后还要对计划进行定期的评审,以发现其中的不适切的部分,并对于计划的充分性进行更新和改进。
BCM 程序管理
上述的四个步骤,可以认为是对BCM构建项目的管理,所以需要分派职责角色、调动资源、制定日程安排,跟踪策划和实施的状况。更重要的还在于对BCM的持续管理。很多企业在客户要求时写了一份详实的BCP,可是很快就束之高阁,让BCP成为了绝密的档案。这些就是BCM的程序管理,在这个程序的基础之上通过一定程度的宣导,让BCM深入到每个相关人士的头脑,最终形成组织文化的一个部分。
在文化的构建中,管理层通过提升人员的意识、提供有关技能的培训,让人们具备了对BCM的理解和认知。当BCM融入组织的核心价值观当中时,BCM的管理构建能够更加高效,利害相关方会有更深的信任,组织变得更有弹性来应对不同的情况,灾害的损失就会被降到最低。
结束语
BCM管理是需要组织最高层推动的管理活动,一个好的BCM管理框架能够让组织有足够的弹性来应对不同的事件,对于灾害的准备不是浪费,而是让业务的经营更加放心。在组织成长为一个可信赖组织的时候,BCM管理是一个必需的考虑。
