永续运营 渐行渐近――业务连续性管理在银行业走向深入
《金融时报》特别关注 记者 潘竑 2005-12-21
 
    今年以来,国内个别银行数据运营中心的计算机系统相继发生故障,造成生产系统停机,影响到部分省分行、总行营业部、机构成员的业务、交易中断。经过全力以付的抢修,这些银行的业务、交易在一天内恢复了正常,同时,中断期间的业务、客户数据也得到较好的保护。
 
    虽已重归往日的平静,然而,事故的发生,无形中却在国内银行心目中留下了一个深深的烙印:对于银行业而言,灾难不只是自然的,更是人为的;灾难备份是必需的,业务连续性管理(BCM)更是迫切的;灾难发生后的IT系统恢复是紧迫的,业务、交易正常运营的恢复则更是重中之重。
 
    “风险可控,但难以避免,在加强信息安全防护的同时,必须从保障银行业务持续运行的战略高度,重视和做好应急响应工作。”在不久前召开的全国银行业金融机构信息安全保障工作会议上,中国人民银行副行长苏宁所讲的这番话,更是统一并加强了各银行对BCM及应急响应体系建立重要性的认识。
 
    近日,记者就BCM在国内银行业的进展情况展开了一番调查,结果表明:无论是对信息系统的预警、应急处置和恢复能力的建立,还是对业务连续性管理认识的深化及具体落实,各商业银行都在默默地、有条不紊地进行着。
 
    应急响应,危机处置从容不迫
 
    在各家银行陆续完成数据大集中后,信息技术的风险更加集中地凸现出来,因而,灾难备份与恢复工作也提到议时日程上来。但是,部分银行在对灾难的认识上,仍存在一些误区:一是认为灾难是由自然灾害等大事故引起的,却忽视了人为操作等小故障的危害性。由于数据库的集中管理、主机的唯一、网络的依赖,主机上小的故障,也有可能引发大事故,导致灾难事件的发生;二是对日常事故的危害性估计不足。大集中后,一个单点上的事故,其影响范围已不再是局部网点,而是大范围、全国性的影响;三是认为预防可避免事故的发生,却未意识到事故是不可避免,但却是可以控制的;预防事故并不等于不发生事故,关键是正确处置小故障,设法降低损失,缩小影响范围,避免大事故的发生。
 
    在采访中,记者了解到,目前,国内银行对于危机事故的应急反应还不够迅捷,应急组织体系也有待进一步优化。对此,中国人民银行科技司有关负责人表示,各银行应尽快建立健全应急机制,建立由高层领导统一协调、相关部门参加的高效应急决策机制,信息系统应急预案要由业务与科技部门共同制定。要高度重视应急预案作为紧急行动方案的快速性和有效性,建立应急预案演练制度,定期组织科技部门和业务部门共同参与的桌面演练和生产系统实战演练,动态维护应急预案,提高快速应急能力;同时,建立与分支机构、营业网点间快速、有效的沟通机制,上下互动应对危机。此外,涉及需通信、供电、公安等跨行业外部机构应急保障的,应按照人行制定的《银行重要信息系统应急协调预案》来处置。
 
    中国工商银行为防范数据集中的潜在风险,在北京数据中心建立了全国金融业规模最大的“千公里级数据中心异地灾难备份恢复系统”,满足了2小时恢复时间目标和2分钟恢复点目标的设计要求,灾难发生时,备份中心可以在短时间内接管核心信息系统的生产运行,保证了全行的核心业务连续运作。今年9月17日,工行进行了生产系统网络切换级灾难恢复演练,10月14日晚,又进行了全行业务级灾难恢复演练,将上海数据中心的核心业务系统,在两个小时内切换到北京数据中心主机系统运行,充分验证了灾备恢复系统的可靠性。目前,工行已形成一整套信息系统应急管理机制,每年定期组织各个层面、各个系统的应急演练,提高了预警、防护能力。
 
    中国农业银行也高度重视突发事件预防和处理的时效性。在对系统进行认真分析和收集整理经验教训的基础上,农行制订了较为完善的应急预案,包括应急组织、应急技术、现场保护和恢复等各方面的内容。
 
    今年十一期间,人行成功实施了现代化支付系统的切换演练,顺利运行了一周时间,有效检验了备份系统的高可用性,锻炼了队伍,提高了应急能力。
 
    业务连续性,从粗放走向深细
 
    业务连续性管理专业公司GDS总裁黄伟告诉记者,业务连续性管理在银行的发展一定是循序渐进的,随着认识的不断深入,才会在更大范围与更高层面上展开。一般来说,业务连续性管理体系的建立,都是先从IT部门开始的。银行往往是在把灾难恢复系统做起来后,才会想到,面对大的灾难,已有处置方案,那么,面对日常紧急事件又该怎么处理?这时,他们才会考虑全面的业务连续性管理问题。
 
    近两年来,为防范总行计算机运行中心的运营风险,兴业银行在上海建立了远程异地灾备中心,此后,又在福州建立了同城同步数据备份中心。由此,兴业银行率先在国内股份制商业银行中,实现了核心业务系统的同城同步备份和异地备份。最近,兴业银行准备在行内推展业务连续性管理。据记者了解,此计划包括:对员工进行系统培训,使相关技术、业务和管理人员对连续性规划的技术、运营和专业知识,有较全面的认识;规范和完善面向双备份中心的运行模式和运行管理体系;制订和完善业务连续性计划(BCP),包括灾难应急响应流程、信息系统灾难恢复和重续运行流程、业务系统灾难恢复流程等在内的文档体系;对业务连续性计划(BCP)进行有效的测试和演练等。这一揽子规划,将为兴业银行的业务永续运营,又加上一层保护网。
 
    无独有偶,交通银行也在做类似的事,不同之处在于,交行的灾备中心是先建同城,后建异地,目前二者都正在建设当中。此时,交行发现了一个问题――在灾备系统尚未启用的情况下,如何保证现有核心业务系统的安全和完整性?一旦现有的系统发生灾难事故,应如何处理、如何进行应急响应、如何进行本地的恢复管理?于是,他们想到了要尽快建立基于业务连续性管理之上的应急管理体系。目前,一个名为“信息技术应急管理体系规划”的方案,正在紧锣密鼓的制定之中。交行希望透过建立这套体系,增强自身的危机管理能力,提升风险控制水平。
 
    记者还了解到,目前交行正在进行的这个应急管理体系规划,并不是由科技部门发起的,而是从行长一级发起的。因此,这套应急体系建立起来,就不只是与科技部门有关,而是与全行至少不下10个业务、管理部门有关。涉及面之广,影响程度之深,非普通的一个IT项目所能比。这表明,BCM作为一项与银行生存发展息息相关的大事,正在得到银行领导层的高度重视。
 
    外包与咨询,借外力夯实永续运营基石
 
    业务连续性管理与灾难恢复计划是一项庞大的系统工程,对此,工程甫一“动工”,银行就要做好充分的思想准备――因为它意味着要解决一系列有关恢复计划的规划、设计、以及测试阶段中业务运营等方方面面的问题。想强有力地开展这项工作,银行必须要进行业务影响分析,从而知道需要什么、不需要什么;在恢复计划的设计、管理与测试上,要采用一项集成式业务与IT 方法论,并通过模块化的方案,来减少对业务连续性计划的维护工作;要通过正确的规划与测试、以及保留即时拷贝等方式,来确保第二站点上数据的完整性……所有这一切,有时单单靠银行自身的力量是不够的,还得借助一些专业化外包咨询公司之力,才能迅速建立起足够强大而坚实的业务连续性管理体系。
 
    在业务连续性管理及灾难恢复系统的外包方面,银行在各行各业中,算是走得最早的行业。几年前,深圳发展银行就将其灾备中心外包给了GDS公司。然而,几年后,却很少能看到有更多的银行实施这种外包。究其因,银行倒也不是不愿外包,而是不敢外包,话说白了,就是对外包服务商不放心。今年11月底召开的银行业信息安全保障工作会议提出,要科学引入服务外包机制,加强服务外包风险控制。人行有关方面负责人建议,商业银行要合理制定服务外包策略,全面考虑、审慎选择外包服务商,建立良好的沟通机制,尽可能签订周全服务合约及数据保密协议。同时,还要根据国家信息安全相关规定,配合行业监管部门,逐步确立和实施服务外包的资质审查、准入制度,对服务外包的范围、方式加以规范和指导。相信这一系列措施出台后,将推动银行业务连续性管理体系的建设。
 
    另外,据记者观察,有关业务连续性管理的咨询项目,近来在部分商业银行有升温的趋势。一位专家对此现象,作如下分析:“从来没有一种硬性的、永久的规则,可以用来规定什么样子的业务及IT恢复战略,对于一家银行而言是最好的战略。因为,业务连续性管理战略取决于许多层面的考量而定,其中包括该银行的业务连续性管理与灾难恢复方案的成熟度、所拥有的关键性业务流程与应用的数量,及所希望进行投资的数额等等。因此,各家银行在实施时,必定会有各自的特色。而这项工作,除了银行的全力投入外,借助外脑,汲取专业化咨询公司多年所积累的实践经验,也许会比自己独自摸索,走得会更快更稳更好些。”中国建设银行一位有关人士也表示,如果花几个亿来建灾备中心,但是,却没有一套完整的业务连续性体系制度来保障的话,那么,这几个亿对银行来说就是白花了。据悉,继交行、兴业银行之后,建行也准备开展BCM的项目咨询,以期在绘制出一副全面周详的业务连续性管理蓝图后,一步步实施,并最终达成银行永续运营的目标。