IT168高端访谈——震后重建与灾难备份

专访时间:2008年5月19日14点35分

专访媒体:IT168

主持人:宋乐永,IT168副总编;参胜利,IT168软件群组主编。

受访嘉宾:汪琪,GDS万国数据副总裁、首席灾备专家。

链接地址:http://cio.it168.com/subject/zaibei0519/index.htm


访谈现场,从左起:宋永乐、汪琪、参胜利

 

四川汶川地震已经过去几天了,地震遇难人数已逾三万,在继续搜救生还者的同时,我们也需要逐步恢复正常社会秩序。然而被震垮的社会秩序如何快速恢复?生活如何尽快安定?企业如何快速恢复生产?5月19日14点35分,灾难备份专家、GDS副总裁汪琪做客IT168,与大家共同探讨震后重建和灾难备份……

预防地震 灾难备份究竟有多重要?
  灾难之后 如何重建社会秩序?

 

宋乐永:各位网友大家下午好,欢迎收看IT168高端访谈栏目,我是宋乐永,坐我身边这位是参胜利,今天下午的节目由我们来主持。


参胜利:大家好,我是软件频道主编参胜利,今天我们和大家聊一下灾难备份的话题,其实通过刚才大家默哀3分钟已经表达了大家的哀思之情。今天我们讨论的话题,就是在不幸之中保存数据这么一个话题,今天我们请到了汪琪先生。


汪琪:大家好,我是汪琪。我们主要的日常工作就是为大家做灾难的备份,以及灾难时候的应急管理,还有灾难后的恢复。我们主要的就是灾难的备份和应急管理,在这方面希望和大家在今天下午做一个探讨。


宋乐永:几分钟前全国人们一起为在汶川地震中死难的人默哀三分钟,现在救援在进行,人们希望一个一个奇迹发生,生存下来的人们更希望大家关注,这次大地震中造成了三万多人遇难,二十二万人受伤,受灾的人口超过了一千万人。

从地震发生到现在已经过去一周时间,这一周之中地震给人们的财产带来了巨大的威胁,汪总您介绍一下,这次灾难之中您怎么看待政府和企业的应急管理能力的?


汪琪:那么在这次特大的地震的灾害当中呢。应该说我们从公共机构,从政府,从各个企业,在整个对灾害的反映,首先一个来讲就是速度非常的快。我举一个例子,我们在灾害发生之后四个小时内我们的军队,紧急的救援的队伍就已经开始出动。比较美国的台风出现问题的时候,国民警卫队是在30小时之后才赶赴现场。

我们现在灾区已经有10多万的军队了,进行了恢复了抢救,应该来讲我们这次政府,温家宝总理,胡锦涛主席,都是非常快速的赶赴了现场。应该说政府的这次反映速度是非常值得称赞的,这不仅仅是中国的媒体和机构的一个评价,也是国外媒体和机构的普遍评价。

从企业来看,我们要看一下这一次在汶川大地震当中,我们的一些所谓关键的信息系统行业,比如说最关键的基础通讯,我们的中国电信,中国网通,中国联通都是非常的重视这次的事故。基本上是在72小时以内,我们把这么大一个灾场的通讯光缆基本上恢复了,而且这种恢复不是紧急的,流量狭窄的恢复,而且是光缆的恢复,这些是在72小时之内做到的。那么这一点上呢应该说我们的企业做得非常的不错。


宋乐永:这次有一个很有意思的现象,就是当地震发生48小时之内,有很多地方出现了孤导,比如说震中的汶川县城,我们没有办法和那个区域进行联系,这个时候唯一能够联系到的是海事卫星和互联网,当时在汶川是用互联网发出的第一条信息,为什么这次只有这两种方式成为主要的渠道。那么信息沟通渠道会不会显得比较少,这是正常的还是不正常的现象呢?


汪琪:我觉得您触及到了非常非常重要的问题。从我们的专业来讲,在应急管理当中第一条就是必须要保证通讯畅通,只有通讯畅通了才能了解情况,才能做出判断,才能调集物资,才能指挥整个的抢救。所以通讯畅通是一切的根本。

那么我们这次在汶川的大地震当中,前48小时我们仅仅是依靠了阿坝州的政府网站,还有一部卫星电话和外面通讯,这揭示的是,虽然灾难发生的时候我们应急反映的速度很快,但是在灾难发生前我们的准备工作是不足的,也就是说我们一般从行业来讲,对灾难的应急响应的整个流程分几个步骤。灾难发生前的预防和降低风险的这一个阶段,灾难发生中的应急处置,应急响应阶段,灾难发生后的灾后恢复阶段。

在这三个阶段是密不可分的。如果在事前的准备做得好的话,你的事中肯定抢救可以及时,损失可以减少,事后恢复就更加容易。那么受的损失整个就小,如果前面做得准备不好,虽然事中反映很快,但是没有那么容易,这么大的灾难要想快速的恢复没有那么容易。

那回到刚刚说的通讯的手段,一个是互联网,为什么互联网可以通,是因为它除了主干线之外它有一个备份的冗余线路,通到了节点上,那么只有阿坝州政府有这个条件,那么也就是说只有他在事先做了通讯路由的迂回,也正是这个可以保证互联网的畅通。
第二个是海事卫星电话,在一般的大灾难发生的时候,我们地面通讯光缆一定会受到一些不同程度的损坏,并且在灾难发生以后由于大家通讯量的突增,所以一般会造成通讯上的问题。那么这种通讯的障碍我们看不管是美国的911,还是其他的大型的灾难,一定都会出现这种情况的。

那么地震发生后海事卫星电话是点到点的,它在地面到卫星,再从卫星到地面,所以它不会受到影响。其实从这两个角度来看,这两种备份方式,一个是光缆的路由迂回,第二是海事卫星电话,相对来讲成本比较高,是不是因为我们在事前准备的时候,因为准备高,所以一般的企业,一般的政府组织机构很难达到呢,我们说其实不是的,我们从应急管理和业务联系的交通看,不一定采取成本很高的方案。比如说除了这两种通讯方式之外,我们业余无线电爱好者的电台,我们有一个频段是公开的,我们的一些电报电话系统,如果这些系统能够平时作为一种保障的手段和冗余的通讯手段,能够平时建立起来,其实建立和维护的成本是很低的,但是真正发生紧急情况的时候功能是非常大的。



宋乐永:确实,这次灾难发生以后,我们当地的广播系统也全部瘫痪了,整个社会处于瘫痪状态,交通,电力,通信,政府,银行,全面瘫痪了,所以说这种灾难非常的大,到现在一个星期过去了,基本上已经从人员的救援逐渐转到了社会的救援,我们更关心受灾的人,怎么样很快的恢复生产秩序,社会秩序,重建家园。从国外来看大概经过几个阶段来恢复社会秩序的呢?


汪琪:要恢复秩序,我们刚才谈到要有事先的准备,以减少风险发生损失的准备,要有事中的应急处置阶段,这就是刚刚所说的救助的阶段,还有事后灾难恢复的阶段。

像这么大规模的灾难呢,它摧毁的是整个社会体系,它不仅仅是其中一个分子,那么你要把整个社会体系重新建设起来,那么有一些基础的东西必须首先要进行恢复。这个民生的咱们就不说了,这个是属于大家都看得到的,民生,医疗,防疫,卫生,房屋,这些民生的先不说。

要把社会体系建起来,我们有哪一些要考虑到呢?第一个是我们的基础通讯,基础的交通,这个要建立起来,比如说我们的电讯,我们的铁路,我们的航空,这些能力首先要起来,只有通话通了,物资可以运送进来了,人员可以进出了,那救灾的场所才开始能够恢复。

接下来整个社会体系的一些关键要素必须要起来。银行,证券,保险,这些金融机构还要起来。基础的供电要起来。那么这些要素是构成了日常我们生产生活的必不可少的一些要素。为什么我们说银行这么重要,国家拨了三十多亿救援的资金,全球华人捐了三十多亿。


宋乐永:到昨天为止全社会的募捐已经超过了100亿。


汪琪:好的,100亿,这些资金捐了现在都在银行体系里面,怎么样快速的送到灾区,我们在这次灾难当中看到某一家银行,它的都江堰支行整栋6层的大楼跨塌了,这一个银行的基本业务,清算,结算,银行的业务往来完全就停顿了。现在大家更关注的是我们从瓦砾当中抢救出来的这些幸存者,但是受灾的人员远远不止这些人,本地的这些老百姓在外界物资非常缺乏的情况下,我们在网上看到一个账篷卖到400块钱,一瓶水卖50块钱,这时候他要生存下去,但是他没有钱。


宋乐永:对,所以我们觉得这些人面对三个问题,一个是社会各界募捐的钱到了银行,银行怎么发下去,这是一个问题。第二个问题是社会各界的物资怎么样运到灾区。第三个问题就是灾区的民政系统全部震毁了,民政社会怎么样把钱合理的分给灾民,怎么样把物资分给需要救助的人员,这三个问题如果不解决的话,只能造成更大的伤亡。


汪琪:对,您刚才谈到的,在我们专业学科里面,如果分科的话还能分成两块。一个是像美国联邦政府有两个大的计划,一个是COOP,就是政府运作恢复的计划,这个计划包括政府的关乎国计民生的运作,还有刚才我们谈到的这些社会的最基本的一些要素的恢复,我们可以把它看成一类。另外一个是COG,这个计划就是整个的政府运作体系,如果是出现了问题的话,怎么样尽快能够恢复。这其实也是摆在我们面前非常的悲痛,但是也要面对的问题,现在政府的人员,公共机构的人员很多已经受伤了,遇难了,或者说他们已经忙于救死扶伤了,这时候整个社会体系的运作出现了问题,那么这块我们怎么样考虑,事前有没有这方面的应急的计划。

那么社会公众所需要的这些,包括政府,包括这种公共机构,银行现在可能叫企业了,包括银行这样的关乎到国计民生的企业,他们的快速恢复又是由谁来进行统一的统筹呢?没有统筹的话,是不是由大家自己去做,所以现在面临很多这样的问题。


宋乐永:这里面我很关心的一个问题,就是一个县的民政局有24位职员,这一次地震当中有16位遇难了,还有很多人受伤了,这次这个民政系统就瘫痪了,那么到那儿的物资谁来分发,我们给政府什么样的建议,让他们快速的恢复系统的运转,确保民政系统的运转,使救灾物资及时的发到需要的人手中去?


汪琪:一般这种情况我们有两种办法。一个是我们刚才说的继承计划,就是当政府的某个部门的功能停止运作,没有办法运作的时候,特别是人员出现了大规模的伤亡的时候,那么它的功能由谁来替代,谁来接替,这个工作是事先做的。

第二就是由外来的应急机构,直接把这个功能拿过来,由外来的机构在这种状况下先履行政府的职能,等到本地的政府可以重新的重建功能逐步的转移转交。这也是外来的救灾救助机构暂时能够给大家提供的功能。


宋乐永:这里面有一个信息系统的问题,民政建立了很多的信息系统,外来的人员对这些系统不能完全的掌握,我不知道中国的民政系统有没有数据的备份,这次灾难对将来民政系统建设,在灾难备份方面我们应该吸取什么教训呢?


汪琪:如果谈到信息系统的备份方面呢,在中国现在来讲,我们看到像北京,上海,广州,深圳,这样的一类的大城市,他们的准备工作,应该说做得会比较早一些。那我们也一直在辅助几个城市的市政府做这方面的规划,建立自己的灾难备份中心,对整个电子政务,对一些关键的数字进行备份。

但是如果到二级三级的城市,应该来讲在这方面考虑的还不是很多。那么一定会存在着我们的这种地方政府的信息系统长时间不能够运作,这些数据会丢失。我相信可能会出现这种情况。

出现这种情况,如果你事先没有做备份的话,现在只能说靠我们的兄弟部门去进行支援,尽快的把这个系统能够给它重建起来。但是对于这些宝贵的数据我们要进行分析,看看这些数据还有没有可能获取。比如说当年上海四号线坍塌的时候,涉及到一个危楼,里面有很重要的数据在里面,看能不能抢救出来,看看类似这样的方式可不可行,我们要看看这些数据有没有可能从其他的渠道获得,比如说以前上报过,看看有没有可能拿回来,看看有没有原始的凭证,但是这些工作是很漫长的。


参胜利:其实我们也知道,在国家标准当中,有那么一个信息系统灾难恢复规范,您是主要的起草人,在这儿能不能给我们介绍一下,这个规范什么时候起草实施的,里面有没有硬性的规范,对于我们不同的企业有没有不同的分级的体系?


汪琪:这个规范的名字叫做《信息系统灾难恢复规范》,它是一部技术类的标准,是由我们国家的安全化标准委员会在去年正式颁法的,标准号叫做GBT20988,这是从2004年国信办牵头,召集了8大重点行业,包括银行,铁路,交通,税务,海关等等这样一些重点的信息行业,召集了几地的市政府,还有我们的基础运营企业,我们GDS公司,还有我们中办的一些专业机构,当时整个想法就是中国的信息系统越来越成为我们整个社会的一个基础运行保障的最重要的环节。信息系统的灾难恢复是所有的灾难恢复当中比较迫切的,而且建成了之后效用体现最明显的,希望从信息系统着手能够整理出一套技术类的规范出来。

这套规范在2005年就以国信办文件的形式正式下发,下发到8大重点行业之后,各个行业都进行了转发,应该说这一个指南出台是非常及时的,对大家刚刚开始的灾难备份和灾难建设工作十分有指导意义。之后这套指南提交给了中国信息安全标准化委员会,最终形成了GBT的国标标准。

在这个标准当中我们应该看到,我们的社会,我们的行业是非常多元化的,每个企业自己所面临的情况差距也很大。所以你想以一个标准,一个文件来规范所有的这种企业和政府和组织,这是不可能的。所以这一个技术类的标准它给大家实际上是一套技术规范,技术流程,就是当你要建设自己的灾难恢复能力的时候,你应该怎么去做,流程是什么,指标是什么,分析的方法是什么,建设的过程是什么,你的组织和人员保障体系应该是怎么样,你要怎么去验证这套体系,让它怎么样达到有效。那么这套规范应该来讲是总结了国内国外这几十年在灾难恢复方面的一些最佳的实践得出来的一套理论方法。

这套标准有一个亮点就是它的分级。那么国标应该来讲呢,在国内吧,应该是第一次把信息系统的灾难恢复能力做了一个等级划分,从1到6,总共6个等级。那么等级划分有什么好处呢,第一让大家在建设自己的灾难恢复能力的时候,你考虑的会比较全面,在每个等级当中有7个要素,就是说你每个要素都必须达到这个等级的最低要求,你才能是这个等级,你有一个短板你就可能这个等级下调。就是让大家眼睛不要只看着信息系统和数据的备份,那么同时还有很多其他的要素。

第二就是给大家非常好的可执行性。各个行业拿了这个标准之后,可以制定自己的行业管理规范,比如说银行业,第一类核心业务系统必须达到第5级,第5级是什么,不用说了全社会认可的国标,大家看这个国标就可以了。


宋乐永:这个系统对政府系统的数据备份有没有提出明确的要求?


汪琪:政府数据备份的要求没有在这里面提出。就像我刚才说的,我们只提1,2,3,4,5,6级,政府要达到第几级,银行达到第几级,证券达到第几级,还要再细分,政府里面有20多种功能,这种功能达到多少级,这种数据达到多少级,这我们没有在一个标准里面含概,这应该是政府和各个行业再出管理规范的时候进一步细化。[15:25:38]


参胜利:未来对这些规范会不会有一个强制性的执行,或者是评估的工作呢?


汪琪:现在我们看到中国有很多行业已经开始了,比如说我们看到的中国在做灾难恢复方面做得最快应该是银行体系了。银行体系从最早2002年就开始提出,银行信息系统大集中就提出要建设灾难恢复的能力,那么在2006年人民银行和银监会都出了标准,2007年出了一个银行业的管理规范,那么今年就应允奥运还有管理体系,银监会又出了很多检查,自我评估的办法,所以看得到行业主管部门在推进,但是差别很大。


宋乐永:这次地震当中有一家银行的支行倒塌了,那么他想快速的恢复的话,应该怎么做呢?


汪琪:这家银行的倒塌又涉及到一个问题,我们把这家银行倒塌的恢复我们归类为业务连续,而不是信息系统的灾难恢复。因为对这家支行来讲,我相信它的信息系统,真正后台的处理系统没有问题,因为各个银行基本上都实现了大集中。那么这家银行它的处理系统一定不会在都江堰分行所在的地方。那么对于它来讲,它最大的问题,它的整个工作的场所没有动,我们一般的在做灾难恢复,我们说做预案的时候有一个场景,就是我假设在什么情况下我来做这个预案。这个场景对信息系统的灾难恢复来讲,一般我们假设的是信息系统出现了问题,或者是信息系统的运行环境,水啊,电啊,空调出现了问题。但是做业务连续的时候,要考虑到整个工作场所,要考虑到工作场所周边情况,要考虑支持工作的物质保障条件,人员没有了,在这种情况下怎么办。所以对这家支行的情况来讲,如果在灾难发生前做准备工作,它应该是对整个支行的业务做评估,做分析,然后我们看看有哪些业务在灾难后,比如说4小时内必须恢复的,8小时内必须恢复的,24小时内必须恢复的,7天内必须恢复的,这些都要排出来,排出来之后我们看看每一项业务做恢复的时候,我们所需要用到的人力资源有多少,IT资源有多少,服务渠道,服务界面有多少,把这些条件全部在异地,比如说这栋楼倒塌了,但是我在其他的地方,或者在另外一个城市的支行,我们做了一套物质保障条件,然后要开放一整套的预案,真正灾难发生的时候怎么到那边做业务,然后在这基础上每年进行演练,如果做到了这步,真正发生灾难了,我们银行剩下的这些人员将到事先所设定到的地方,我们把资源拿来,我们把流程打开,我们把后台的IT系统接上,然后对外提供服务。


宋乐永:像现在这种情况,他现在已经仅仅保留了数据,我相信中国的银行已经做了数据大集中了,我们现在有没有可能找另外一个工作场所迅速的调一些数据做。


汪琪:可以的。因为现在中国的银行大部分没有做到分行和支行这一级,但是我们看到一些方式方法是可以做的。比如说我们看到一些银行是有一些流动的服务车的,这些流动服务车通过一些卫星通讯手段,还有微波的通讯手段,在车里面配制了相应的银行对公业务的终端机还有人员,这就像银行一样,那么这种形式在发生灾难的时候是很可能会发挥作用的。


参胜利:刚才汪总在聊的时候提到一个概念就是演练,我们有一个网友提到这样的问题,大家很难模拟到灾难的具体情况,既然我们没有办法模拟出当时的环境,那么对于这种评估,演练的效果可能没有办法达到预想的结果,那么这种演练目前达到什么样的情况呢?


汪琪:演练在专业上我们分很多种。如果从基本来讲我们有桌面演练,我们有模拟的演练,我们有实际切换的演练,那么桌面的演练就是我们把流程预案准备好,把人员准备好,把整个过程在纸上,笔上,口头上整个走一遍,看有没有什么问题,这是最基础的。模拟演练就是模拟一个场景,在这个场景下检查流程制度,检查切换手册,检查信息系统,实际切换演练就是真正切换。这三种演练我们在国内都做过。


参胜利:您刚才说的切换演练,因为银行系统一直在工作状态当中,这个怎么做呢?


汪琪:这个比较复杂,我们做切换的时候,我们一般会遵循几个原则,第一我们不希望演练影响到正常的生产。这是一个通用的原则,全世界都这么做。特别是现在的银行7×24小时服务,根本不可能找一个点可以停业,2000年千年虫的时候,中国银行停业2天做测试,那么这种环境作为银行来讲很难达到了。我们怎么能够去做这个演练呢,我们会把整个的环境做一份克隆,我们选择某一个时间点,在这个时间点的所有数据环境我们给它做一个克隆,然后拿这个时间点的克隆,在我们建立好的环境下做演练,那么这样就最大程度的模拟了生产环节的进行。

而在灾难恢复的体系当中,我们仅仅是数据通过克隆的方式拿过来了,也是生产数据,那么其他的环节,包括灾难恢复的这套运作的设备,我们的网络,我们的预案,我们参与人员,我们各个分支机构都是真实参与的。然后在这个基础上,我们模拟的所有的交易都是真实的生产交易。最终我们再把两个过程,一个是生产,一个是灾备然后再进行核对,看看两边是否一致。这是一种比较通用的方式。

当然在这个之外还有很多,很细节的东西。比如说我们曾经把一个银行在夜里面两三点的时候,把它的整个网络断下来,切换到灾备中心,测试一下网络的连通性,类似这样的演练有很多种。通过多种演练的组合,能够最大限度的体现我们灾难发生时候的一个场景。


宋乐永:刚才咱们大概聊了一下政府系统怎么来恢复社会的秩序,银行,电力这些公务系统;怎么样恢复社会运营秩序,接下来咱们聊一下企业,因为灾难当前所有的企业几乎全面是停产了,而且灾区有很多的大企业。


参胜利:来自国外调研中心的数据,在经历灾难停运的公司当中,有五分之二没有办法运营,还有三分之一在未来两三年之内逐渐的消亡,那么汪琪先生这个数据是耸人听闻呢,还是真是的?


汪琪:我们看一下美国911事件,世贸中心受影响的是一千二百家企业,真正启动自己的灾难恢复计划,进行灾后自救的只有四百家。


宋乐永:那只有三分之一。


汪琪:对,在这之前世贸中心还遭受一次停车场炸弹的袭击,当时造成一百五十家企业直接退出市场。所以灾难对企业的影响是非常大的。那么企业如何应对灾难,我们说在中国的传统文化当中,以前考虑的不多,这不仅仅是中国的问题,整个亚洲,咱们的传统文化上讲,就是不大愿意考虑这些事情。但是如果从整个企业长治久安,对你的企业的员工负责,对你的投资者负责,那么对社会公众负责的角度来看是必须要考虑这个问题的。

各种不同的企业在进行灾难恢复准备的时候,其实是有不同的,比如说生产类的企业,生产类的企业我们把它的系统一般分成两类,一个是生产系统,一个是IT管理系统,比如说ERP这样的系统。那么对于生产系统来讲,一个好办法就是分散,像当年我们在南方出现非典的时候,大家知道南方是国外很多大企业的制造基地,出现非典之后很多国外的公司把它的定单被分散到菲律宾,马来西亚,分散到整个亚洲,这样虽然管理成本会增加,但是不会出现大的损失。

那么对于信息系统来讲,像ERP系统,我们建立这些系统要有一个灾备,并且要做长距离的灾备,这样的话在真正发生灾难的时候,可能所面临的整个状况是说,有两个管理和运作的中心,有几个工厂分布各地,那么其中有一套这样的体系出现问题了以后,还有另外一套体系,可以恢复百分之七十到百分之八十的生产能力,而不会说一下子整个定单也没了,生产设备也没了,那这样的话企业很可能就消亡了。


宋乐永:这次的灾难和非典和冰灾不一样,那么非典和冰灾过去之后很多企业都会恢复生产,那么这次地震有很多企业的生产厂房信息系统都摧毁了,那么这样对企业来说有很多种情况发生,比如说东方电机,还有第二机械制造厂,这些大企业有比较完善的信息系统的,有可能会有一定的灾难备份的,对于这些企业怎么样比较快的恢复生产呢。有备份系统的怎么恢复,没有备份系统怎么恢复呢?


汪琪:有备份的,我们要看一下在这次灾难当中受损的情况,如果假设他的生产中心受到了一定的摧毁,比如有说百分之四十到百分之五十不能进行生产了,那么就可以用灾备中心,这时候要看一下生产中心和灾备中心的配制是怎么样的,但是这是很难的,银行是做得最早的行业,大部分是把核心系统进行了备份,如果真正发生了灾难,要切换到灾备中心的话,这是非常难以决策的一件事情。有可能切换过去之后只能完成百分之五十左右的交易。而剩下的百分之五十是没有办法提供的。这种情况如果持续一个月的时间,对这个企业的损坏很大,所以对企业来说第一件事是做评估,到底是在本地的生产中心做恢复合适,还是启用异地的灾备中心。评估做完了之后,接下来就是灾难恢复的过程,恢复的过程涉及的人员的调动,涉及到资源的调动,涉及到网络切换,涉及到上下游企业。

我们有一个概念叫做业务连续管理,在这当中企业不仅仅要考虑自己,还要考虑上游企业怎么办,下游企业怎么办,物质保障条件出现问题怎么办,从这次地震来讲,比如说道路断的,物资进不来出不去,电力断了没有办法开展业务,供应商出问题了就没有原材料了,用户出问题了生产出来产品也没有用,所以这些都是整个一个体系,这些必须都考虑进去,要从整个业务管理的角度考虑。



参胜利:一位网友问到异地灾难备份的问题,他想问除了现在的光纤之外,那么无线网络,远程的方式,目前的应用现在有可能吗?



汪琪:有的。比如说卫星,那么现在实际上大家经常在证券部看到的一些系统,实际上是走卫星的。证券行业因为历史的原因,对卫星的技术一直是采用的,以前主要是通过卫星来播报行情,现在行情一般是采用地面线路,但是有很多证券公司会把卫星作为备份的手段进行使用。所以卫星是一个很好的通讯手段。

另外就是微波这种传输手段,但是这些传输手段相对来讲都是有一定的局限性,它的带宽比较窄,它的成本比较高,并且有可能会有延时,比如说卫星有雨衰,天气会对它造成影响。而且会有干扰,我们以前很早的时候在一个银行看到一个例子,卫星通讯一直是时断时续的,最后发现是一个机厂发射一个大功率信号,对这个卫星进行干扰。那么这些无线的通讯手段,各种的通讯手段都有它的作用,但是各种通讯手段都有它的局限性,所以我们要多种通讯手段,多个运营商,形成一个冗余的网络,冗余的网络是最难被攻击的。


参胜利:其实很多网友非常关注备份这块的成本问题,尤其是异地的备份,虽然受到了大家的推崇,但是包括的软件成本,硬件成本,网络成本,这样会造成企业很大的负担,目前我们提供相关服务的公司,那么对于中小企业有没有更好的压缩成本的办法。


宋乐永:我很关心像一些小企业没有钱,但是有一些信息系统,这个时候会不会再恢复呢?对这类企业来讲,怎么样应对这类事件的发生。像台湾地震造成了光缆断了,就没有办法接收了,冰灾的时候,除了物资运不进来,产品运不出去之后,还受到了很多的影响,那么这时候中小企业怎么办?


汪琪:我觉得您二位这两个问题非常的好,第一个问题就是同城异地,这个问题现在在我们这个行业里面,同城异地怎么选择这是一个难题。同城异地都好,它应对的是不同的问题,比如说同城的特点就是快速恢复,数据做到不丢失,我们有的服务的客户,是在大约三十公里左右,我们做到的就是数据零丢失,大家在银行做一笔交易,这个交易去到银行总的处理中心,处理中心不会给一个反馈,告诉前端说这个交易做完了,这个中心要给一个信号给灾备中心,灾备中心记录以后,再给一个信号给生产中心,说我这个信息记录下来了。就这样做到锁向的同步,那么这种情况下一旦灾难发生了。你的同城的灾备中心不会考虑数据丢失的问题。那么在同城的话不管是做演练,做变更等等都非常的方便,同城的目的就是为了快速的恢复,它面对的是建筑物的灾难,系统的灾难。那么在同城的话,如果是大区域的灾难的话,也就是说异地灾备中心和同城的灾备中心定义是不同,异地是在大规模的灾难情况下能够恢复,但是异地灾备中心一定会存在数据丢失的问题。但是知道光信号在我们的光缆里面,一秒钟跑二十万公里,每怎么一百公里,你的信号的延迟可能就是一毫秒,因为你要算一个来回。那么每一次IT的交易会有很多次这样的来回,那就说你如果想做远程的同步的话,你的生产的系统性能会下降。所以说异地灾备中心的数据和生产中心的数据一定会有延迟。这个延迟是多少呢,我们在国内看到最短的是秒级,最长的可以到很多小时。这是技术上的一个限制。

所以对于一些像银行,金融,证券,保险,它们丢失的数据能不能追补,需不需要追,在我们经常考量的时间,就是灾难恢复的时间,会不会在恢复的时候先追补再对外开放,这是很现实的问题,但是异地的灾备中心可以防止很大的灾难,所以现在资金充裕的企业就是同城加异地,就是同时一个灾备中心异地一个灾备中心,如果在这个地方存钱的话很放心。


参胜利:其实关于异地我有一个疑惑,我们在异地的时候选择距离到底多远,因为网友在问,如果异地的灾备中心也面临灾难的话,那么保护就降低了很多呢?


汪琪:这牵扯到一个选点的问题,选点的时候我们要做一个风险分析,这个风险分析对我们的地域要进行分析,我们要看这两个点会不会遭受同样的灾难打击。这是非常重要的,比如说两个城市在一个地震带上不要这样选,尽量把距离拉出去,从地理,从天文,从水文,从社会的政治因素上面都要考虑。我举一个比较有趣的例子,比如说大家知道印尼经常有暴乱,印尼很多企业的灾备中心是放在新加坡的,这就跨国了,当灾难发生的时候,这些企业的IT负责人就会跑新加坡去恢复自己的生产,而印尼有一个规定,就是平时比如说你的金融的数据是不能拿出国的,只能在印尼保存,所以这些企业会把数据放在印尼的机场,当有骚乱发生的时候,就把数据从机厂拿到新加坡进行恢复。所以这是选点方面的考虑。


宋乐永:刚才我们举的例子都是比较有钱的企业可以做到这一点,那么对没有钱的企业来说怎么办呢,像IT168只有几百人,每年的营业额在一个多亿的企业来说,没有那么多钱放在这上面,有没有可能通过类似非典的时候,建立一次性数据的备份呢?


汪琪:小企业一定完全是可以做灾备的,怎么做法呢?这个实际上是很有趣的现象,在中国采用这种方式的企业不是很多,在国外这种方式是占百分之九十的。我们公司是处于一个灾难恢复的行业,这个行业怎么起来的,它的概念和源头是什么,它的概念和源头起源于资源共享,怎么一个资源共享呢,比如说我们现在在全国,在北京,上海,广州,深圳,包括成都。我们总共有六个灾备中心。这六个灾备中心可以给大家提供使用。但是是不是每一个企业到我们灾备中心就划一个地盘,这一块场地,这一些电脑设备,这一些网络资源,这些办公桌椅,板凳,视频会议系统是不是你的,不是的,我们有很多的客户是资源共享的。所谓资源共享是什么呢,比如说我们拿北京的中心,我为同样的一块资源,我为北京的客户,天津的客户,广东的客户,海南的客户同时提供服务。那么这一块资源大家每个人只要负担其中的几分之一的价格,然后当灾难发生的时候,由于大家本身的距离,已经把大家同时发生灾难的可能性降到了一定的程度了,这个时候你宣告灾难你就可以使用这些资源,而且由于社会化服务的企业本身达到一定规模了,在各个用户之间资源可以这样互相调配,说得不好听,如果北京没资源了可以到上海,到广州,到深圳,到各个地方去恢复。在这种情况下给客户一个非常大的灵活性。那么成本也就急剧的降下来了。



宋乐永:把灾备变成了公共服务了,中小企业只有充分的利用公共服务,才能应对不断产生的自然灾害。比如说光缆断了,冰灾,还有地震,海啸,这些自然灾害这几年在频频发生,频频发生的时候,经常是IT系统的中断,这个时候如果能够有效的备份,有效的利用社会化公共服务的话,可以很快的恢复生产降低损失,对于中小企业来说已经变成一个很现实的问题。


汪琪:是这样的。


宋乐永:我们有相关的调查,在台湾地震光缆断了的时候,给很多企业造成了巨大的损失。生产了产品没有办法和客户联系了,这种损失是无形的,而且是很大的。


汪琪:而且长期来讲会有一个形象,和客户忠诚度的问题。客户原来没有想到这个问题,现在一看台湾有可能光缆一断就几天没有办法运作,那是不是要把生产基地挪一部分到其他的亚洲城市去,那这一下子损失就很大了。

参胜利:那作为万国数据服务公司的背景,我想问一下你们的客户在四川当地的客户多吗?这次地震灾害你们受到了哪些信息的反馈,你们怎么样进行很快的反映的呢?


汪琪:我们在成都的服务是刚刚开始。我们的客户本身在成都,没有受到这次灾难的影响,所以我们这次在城市这一边只是内部采取了一些应急的手段,同时也给客户提供了一些服务,提供了一些资源。但是这次真正的震中不是在成都,那么响应的影响也主要是在汶川县城这样一带。


宋乐永:因为时间的关系,咱们回答一些网友的问题。这次网友大概提了七八十个问题。其中有一位网友提问,请汪总讲一讲GDS在做灾备项目中如何为成本做效益分析的,比如说风险损失和防护措施的投入是如何计算的?


汪琪:这是很有趣的问题,就是怎么样算投入产出比。大家要知道灾难恢复的产出不在灾难的时候是看不到的。那么实际上我们在做成本效益分析的时候,我们首先要分析这个企业如果是遭受了灾难,它停顿多长时间内所受的损失有多少,这个损失来自两方面,一个财务损失,我们为一些金融企业做财务损失的时候,我们是非常精确的,会按照各个业务的财务贡献度计算财务的损失,在四小时,二十四小时,四十八小时的财务损失会有多大。

第二方面就是非财务损失,这个主要包括按形象的损失,法律诉讼,罚款,因为没有办法提供服务,这种罚款,它的主管监督部门对他的要求,他的一些特许经营证的吊销,那么从这各个方面,从企业的形象方面,危机管理方面进行一个评估。

那么根据这些评估,我们就可以得出,我们在多少小时内,我们某一项业务已经就到了没有办法忍受的这样一个环境。那么相应的这个时间就是我们在做灾难恢复规划的时候,需求分析的实现目标,我们所有后面的方案都会根据这个时间做,这个时间对企业业务,根据重要程度的不同都是不同的。所以会是一个比较科学的分析的方法。


宋乐永:这次地震过后,可能为你们做分析提供很多新的素材。


汪琪:是的。


宋乐永:因为很多企业会受到很严重的损失。


参胜利:我还有一个网友的问题,他说现在通过什么样的技术实现海量数据的备份?


汪琪:海量的数据也是可以做备份的,拿磁带到异地这是其中一种方式,在国标六个等级当中是属于第一级的,就是最下面一级的。另外就是通过网络的传输,网络的传输也分很多种,比如说我们是定点传输,就是在某个时刻,我们把这一时刻的状况。那么还有就是传时时的,我这边只要有一个数据的更换就传回异地。那么还有就是定时的做大批量的传输,比如说我是做远程的备份,各种各样的方式都可以。
它里面涉及到的主要是备份技术,我们的网络技术,我们的带宽压缩技术。


参胜利:目前类似不同级别的,他们的企业应用的比例大概是什么样的,有没有专门做Web备份的公司出现呢?


汪琪:这里实际上,我们说在国内来讲,一般我们现在看到的做灾备的趋势是从高端企业慢慢开始向中小企业扩展,从外资企业慢慢向国有企业扩展,从金融企业慢慢向其他企业扩展。所以基本上是这样一个趋势。所以说我们在前期做的很多工作,是一些要求非常高的客户,那么有可能它传输的带宽,动辄几百兆,甚至一G的客户,那么他们做远程的数据传输,实际上对他们来讲呢预算仅仅是考虑的一部分,更重要的是数据。

那么当你到中小企业的时候,当你预算有限的时候,相对来讲对海量数据可以把数据的及时性降低,我们有一个指标叫做RPO,就是你恢复点目标的要求,就是当灾难发生的时候,现在的这个数据状态,就是我备份的数据状态,离我最后发生的数据更改这个时间有多长,RPO越小,你的投资成本越高,那么恢复的难度越小,RPO越大成本越低,恢复的难度越大。所以这一定是要平衡的点,中国的金融企业现在我们看到,能够做到的是从零到十五分钟,就是在一切正常的连机交易的情况下,级别的特殊情况到小时。一般来讲不超过两个小时。

但是对于很多的企业来讲,有可能它的业务模式不需要这样,本身它的交易就是批量式的,一天做一次,所以这个成本会大幅下降,所以这要看各个企业不同的方式。


宋乐永:我这还有一个问题,这位网友是做灾难备份的,他说有幸读过贵公司的RA报告,请问汪总做RA的依据是什么?


汪琪:首先说一下RA是风险分析,那么风险分析是比较专业的服务,我们的风险分析分好几类,第一类是对于整个IT系统的运行环境的评估。这个评估是基于模型的,基于经验知识和一些设计标准的。在这上面就是对IT脆弱性的评估,比如IT有没有单点故障点,IT系统有没有漏洞,这些是通过技术手段进行检测,进行分析的,里面涉及很多具体的技术细节。

还有一类是信息安全管理,那么信息安全管理主要是就ISOO有一个标准,就是27001,类似这样的标准我们对它进行评估。另外就是在灾难恢复行业,自己有一些数据保护,数据运行管理有一些相应的标准,我们对根据这些标准对灾难的就绪的情况进行评估。所以风险分析对我们来讲虽然是一个词,但是下面有很多的东西。


宋乐永:我们有很多网友的问题,因为时间的关系不能一一的回答了,最后我们请汪总做一个总结,对于灾区的政府和企业如何快速的恢复社会秩序和生产秩序?


汪琪:从现在灾难恢复和这次抢救的情况来看,我觉得首先就是应该赞扬我们的政府,赞扬我们社会的这些公众机构,也赞扬广大的人民群众,赞扬广大的网友,一方有难八方支援,整个社会的力量都被调动起来了,我们相信在这个基础上可以快速的进行恢复和抢救的。但是同时我们也是希望在整个灾难恢复的过程当中,我们要更多一些专业性,更多一些事前的准备,我们的组织协调,我们对整个体系的把握,专业技术和专业知识的掌握,以及人民群众的自救,自我保护的知识,希望能够借助这一次逐步的让更多的人和组织机构能够更好的准备好,这样一方面是能够加快这次恢复的进程,另一方面也是为将来如果有其他的灾难做一个准备。
宋乐永:谢谢汪总,也谢谢各位网友的支持,我们真诚的希望灾区的人民能够恢复社会秩序,恢复生产秩序,能够重建家园。


汪琪:谢谢大家。