不仅要备份数据,更要备份人员
——关键恢复能力差距分析
GDS万国数据 毛世健 编译
我在灾难备份、恢复行业已经工作25年了。在提供咨询、服务时,我经常会作为协-调人和记录员的身份参加恢复中心的相关测试工作。25年来,每月大约四次的测试频率让我有很强的实践经-验。其中,让我感受最多也是最深的事情就是:按时完成恢复任务会涉及到很多关键恢复能力。
在灾难恢复过程中,有一种情况并不少见,那就是:在恢复过程中遇到了问题,而这方面的技术专家又不在现场,这个问题看似很小,但却往往会导致整个恢复进程不得不中止。而造成这种临时性“大脑失血”的原因往往是因为企业没有将恢复过程写成详细的文档,而且只有一位技术专家负责整个恢复项目。
——这种情况是不是听起来非常熟悉?
问题:被遗忘的人员备份
“9.11”恐怖袭击和“卡特里娜”飓风之后,整个灾备行业都在被迫重新定义“最坏的情况”,比如物理设施丢失,计算机设备损坏以及丧失的关键性人员等等——这并不是一幅美丽的画-面,但却很真实。
我有一位在纽约世贸大厦开公司的朋友,“9.11”事件发生后,他遭受了很大的经济损失,遭遇非常令人同情。他说,他希望能有更好的备份地点和关键性人员。
我们都明白数据备份的重要性,并在需要时会拿出多种解决方案——我们在这方面很在行,但是,关键技术人员的备份也是在规定时间内完成恢复能力的非常重要的一部分,而从我多年的实践经-验看,我们在这方面做得还远远不够。
方案:关键恢复能力缺口分析矩阵
那么,关键恢复能力跟“矩阵”有什么关系呢?“矩阵”以一种简单的方式明确了所有的关键恢复技能,并清晰地强调了哪些技能是关键的以及谁来支持这种技能。一个“矩阵”是一个二维的表格,其纵向列出了各种关键技能,而横向则列出了专业支持人员。
下面我们将通过四个容易的、具有逻辑-性和结构性的步骤来实际组建一个矩阵:
步骤一:明确什么是关键恢复能力
我在做矩阵的时候是这样界定关键恢复能力的:如果某个技能(工作、软件、应用、架构等等)没有在正确的时间正常地工作,就可以称为一个“中断因素”。也就是说,只有这项性能或功能正常工作的时候,我们才能停止恢复的努力——这就是你所需要的恢复能力,以此减少在恢复过程中的延迟。
以下是一些可能被称为“中断因素”的示例:
1、Active Directory不起作用,没有人获得任何权限;
2、DNS服务器停止不再前进了;
3、邮件服务器不起作用,没有人能用电子邮件;
4、ROBOT(iSeries作业调度程序)不起作用了,没有工作运行了或者所有工作都失控了;
5、SAP R3(ERP系统)失效了,这是一个生产和销售过程中的“中断因素”;
6、PeopleSoft不起作用了,支票打印不出来。
让我们定义一些恢复能力或软件产品以使流程开始。但首先我们的做几个假设。需要说明的是,这些示例没有什么特殊的顺序或者优先权,它们只是些例子;这些示例包含了跨平台的多种技能,读者可以根据需要自己添加特殊的技能;小型企业可以将所有功能放到一个矩阵里,而大型企业可以按照部门或者功能领域(网络、数据库等)划分成几个不同的矩阵;本文虽然专注于恢复能力,但所应用的方法同样可以用于其它领域。
其中,技能、产品、应用的例子包括:
应用:Peoplesoft、SAP R3、Share Point、ESS、JDEdwards等;
操作:Active Directory、Tivoli、BASIS、Robot、Magic等;
数据库:DB2、SAP、SQL、Oracle等;
网络:LAN、WAN、VPN、Ethernet、T3、ATM、OC12等;
语音/电子邮件:Exchange、e-mail、voice mail、VOIP等;
安全:McAfee Virus S/W、Norton、密码管理、IDS等;
操作系统软件:UNIX、NT、Windows、VISTA、LINUX等;
因特网:IP Internet、Intranet、SMTP、POP、IMAP4等;
复制:SRDF、Double Take、Mimix等;
物理设施:UPS、HVAC、防火系统等;
步骤二:编排关键技能分析矩阵
我一般使用Word软件来创建矩阵。你可以用Excel、Access或者其它任何工具,只要容易阅读就可以。我倾向于使用表格,因为我觉得它一目了然,并且对我来说很简单。
让我们使用上面提到的一些技能来做一个示例:
| 技能 |
描述 |
影响 |
是否关键技能 |
Active Directory |
动态目录 |
系统用户无法登陆 |
是 |
eTraining |
基于计算机的培训软件 |
没有影响 |
否 |
SAP |
企业需求规划 |
生产与运输停顿 |
是 |
示例:关键技能分析矩阵
说明:在第四列中被指定为“是”的技能将进入到下一个步骤,我还在矩阵中加入了一个非关键的技能(eTraining),这个技能不会进入到步骤三。
步骤三:将主要支持人员、备用人员和第三人选填入矩阵
确认并认可了关键能力之后,就进入了另一个矩阵。这一步骤的任务是确认谁来支持哪些关键能力,其实就是确认IT部门内部谁负责哪个特定的技能。通常,主要支持人员总是很明显的。
这一步骤同时也确认了一些可能的“其它资源”。在示例矩阵中,生产商和咨询顾问也被列在其中。显然,他们的名字以及联系方式应该被列入矩阵中以备参考。同时,你也应该考虑那些刚退休或者调到公司其它部门的,原-来是某个关键技能的主要支持人员的员工。在做灾难恢复的时候不要忽略了他们。
以下示例中,P代表主要支持人员或组织,B代表备用人员或组织,T代表第三人选或组织。有些企业只准备到第二层次,但我建议准备到第三层次。考虑到现在常用的灾备规划策略,这并不是个坏主意。
关键技能 |
人员1 |
人员2 |
人员3 |
人员4 |
其他资源 |
AD |
P |
|
B |
|
咨询顾问 |
CISCO |
P |
T |
B |
|
N/A |
DNS |
|
T |
|
|
N/A |
Exchange |
|
|
P |
B |
生产商 |
MIMIX |
B |
P |
|
T |
N/A |
示例:确定关键技能支持人员
步骤四:对人员进行“技能层次”分析
这一步骤不需要非常精确,它只是对能力层次的一个简单的提示,可以对恢复技能形成恰当的期望。如果没有这一步,可能会有人认为即使主要支持人员不在现场也可以完成灾难恢复,因为还有一个备用人员。这种情况是很危险的。这一步还可以明确漏洞出现在哪里并及时做针对性的培训。
注意:这个步骤不应该被理解为对个人能力的详细评估。评估是人力资源部门的事情,并且,他们会做得更加深入。不过经-常与人力资源部门讨论一下,以了解他们在这方面的看法也并不是一个坏主意。要记住,差距矩阵本质上是综合性的,设计它的目的在于找出关键恢复技能或进程中在哪些地方还不够完善。这是业务连续性规划的一部分,也是企业生存的一部分。让一个还在学习中的唯一的人来支持关键恢复能力是不恰当的。在查看这些矩阵的时候,一定要牢记这一点。
在下面这个示例中,我们用数字来代表技能的层次,1表示熟练掌握,2表示一般掌握,3则表示正在学习中。使用这些标志(或自己定义的标志),让合适的领导去检查人员的技能层次并填写差距矩阵。就像我之前提到的那样,这不需要非常精确。这样做的目的其实很简单:确认哪些关键技能已经被很好地支持,从而使恢复时间不会被延长。现在,让我们来仔细看看下面的示例矩阵。
关键技能 |
人员一 |
人员二 |
人员三 |
人员四 |
其他资源 |
AD |
P1 |
|
B3 |
|
N/A |
CISCO |
P1 |
T2 |
|
B2 |
N/A |
DNS |
|
T3 |
|
|
N/A |
Exchange |
|
|
P1 |
B2 |
T1–生产商 |
MIMIX |
B3 |
P1 |
|
T3 |
N/A |
Norton |
P1 |
|
T3 |
B2 |
N/A |
NT |
P1 |
B2 |
|
|
T3–咨询顾问 |
Oracle |
|
P2 |
B2 |
T3 |
N/A |
Peoplesoft |
T3 |
|
B2 |
P1 |
N/A |
ROBOT |
|
P1 |
B1 |
T3 |
T1–退休员工 |
SAP |
|
|
P3 |
B3 |
N/A |
SRDF |
|
B2 |
P1 |
P3 |
N/A |
UNIX |
T3 |
|
P1 |
B2 |
N/A |
UPS |
|
P2 |
|
T1 |
B2-生产商 |
VOIP |
P1 |
|
T2 |
B2 |
N/A |
示例:关键恢复技能“差距”分析矩阵(添加人员技能层次)
你能从矩阵中发现什么问题吗?
看到这里,试试你能不能使用矩阵来发现两个技能在备用层次上的缺陷。仔细观察矩阵,你找到了吗?它们就是DNS和SAP。DNS的情况是没有指定主要支持人员和备用人员,只有一个正在学习该关键技能的人员。是不是这方面的人员离开了企业?SAP的问题在于主要支持人员和次要人员都在学习中。这种情况下最好从拥有这种技能的生产商或者咨询公司那里获得外部支持。
恢复技能矩阵的好处
随着我们越来越依赖于技术(计算机和软件)的可用性,以及互联网和全球化使企业真正变成了24小时不间断运行,我们应该确保我们的灾难恢复计划能够解决关键技能人员方面的问题。一些企业已经在使用灾难恢复方案来提高冗余设备利用率、高可用性以及负载平衡等等,但大多数企业都还没有做到这一点。他们只是简单的依赖于传统的恢复方案和关键的技术人员。使用本文提到的方法至少可以在以下方面获得提升:
可以使企业在紧急事件发生之前就做好备份准备;
清晰地定义了员工的责任,降低了对他们不切实际的期望;
灾备意识训练是灾难恢复规划中的一个积极的部分;
矩阵可以帮助管理者专注于他们需要知道的信息,比如,他们需要知道某些关键技能没有被很好地备份,之后就可以选择参与解决这些问题或者选择“管理这些风险”;
关键恢复技能可以作为人员的工作目标,可以对其进行评估并决定是否需要提供相关培训。
结束语
这个方法特殊的地方在于它简洁明了地展现了很多文字难以表达的东西。灾难恢复中时间是非常紧迫的,RTO(恢复时间目标)已经很低并且会越来越低。24小时内恢复真的已经很普遍了。事实上,少于8个小时的恢复比想象中的更为普遍。潜在灾难的性质、出现的频率和严重程度不断地在变化,下一次灾难会在何时何地发生?谁也给不出答案。为了在灾难之后快速、有效地进行恢复工作,我们必须要把握住所有的关键恢复资源——包括人员在内,这就是本文的初衷。
我认为制作这个关键恢复技能“差距”分析矩阵并不是一件困难的事情,方法很简单,逻辑-性也很强。所需要的只是一个承诺和对行业的一种责任感而已。那就是我们作为灾难恢复专家的工作,确保能够精确地恢复关键业务并且不带有任何延迟。如果你觉得这个方法有效,就请尝试使用一下。
