目前,几乎所有的高校都建立了自己的数据中心,构建了先进高速的光纤存储区域网络。看似井然有序的运转中同样蕴藏着潜在的风险,如系统宕机、黑客入侵等,富有经验的系统管理员借助管理工具可以快速恢复系统。既便如此,不可预知的灾难对高校的正常运转同样不容忽视。
分析灾难恢复需求
进行灾难影响分析时,我们应当把影响假设成最糟糕的情况。由于高校具有种类繁多的各种信息系统,在正常运行时,所有功能都应当处于同一水平。然而灾难发生后,只有最关键的功能才必须立即恢复,恢复的优先级应根据功能的时间敏感度,而不是根据功能的战略重要性或大小来划分。高校对于灾难的影响分析类似于回答以下问题:
1.灾难恢复期间,学校一卡通系统必须及时恢复,或临时印制纸质票据应急。
2.灾难发生后4小时内,学校的网站和电子邮件系统必须正常运行,或者可以延迟8个小时甚至5天恢复。
3.灾难发生时,学生的在线选课和图书馆资料查询必须立即恢复,或者以其他方式延迟。
4.灾难发生时,处理资金收入的功能必须立即恢复,或者可以被中断几天。
影响分析应当在回答上述问题之后再确定恢复的优先级。如果没有进行影响分析,灾难发生后高校就学校的政策和主观臆断确定应当首先恢复哪些功能、安排恢复的优先级,就可能浪费宝贵的资源。只有停机的所有影响被量化或被逐渐认知,高校才能确定某项功能可以中断多长时间而不会给学校造成重大影响。
影响分析最后会形成各个信息系统的RTO(恢复时间目标)和RPO(恢复点目标)两个灾难恢复的衡量指标,分别是指应用的恢复时间和数据的恢复程度。
寻找最佳灾难恢复方案
首先是灾难恢复站点的选择。一般而言,恢复站点应与主站点保持足够的距离,确保发生在主站点的自然灾害不会影响到恢复站点。“足够远”不仅仅用来衡量距离的远近,还指恢复站点的供电系统和网络系统应当和主站点的这些生存环境分开。对于高校来说,其数据中心通常建在主校区,而分校区的二级网络中心就是比较理想的恢复站点场所了。值得注意的是,恢复站点的公用设施(电力、电讯)和网络系统要和主站点分开。
其次是高校必须平衡灾难恢复的目标和成本之间的平衡。通过对高校重要的信息系统的分析得知,除了极少数应用系统外,其他大多数信息系统对于RTO的要求并不高,所以高校的容灾系统设计常见于数据级容灾方案,即保护重要数据在灾难发生时的安全。很显然,这需要在恢复站点保存至少一份和主站点尽可能同步的数据副本。我们通常会根据数据的重要程度来分别设计不同的数据级容灾方案。
下面介绍浪潮公司是如何设计的。
对于需要数据容灾而RPO值在小时级的应用系统来说,可以在主站点和恢复站点分别配置浪潮的虚拟磁带库VTL1000系统,通过IP网络实现互联,在主站点通过对备份软件设置备份策略实现定时自动备份重要数据到主站点的VTL1000中,再利用VTL1000的数据远程复制功能将备份数据通过IP网络传输到恢复站点的VTL1000中,从而在恢复站点即时生成了一份和主站点相同的备份数据。当主站点发生火灾等灾难时,可以在恢复站点利用备份软件恢复数据。
对于对RPO值在分钟级的关键核心应用,浪潮存储提供了基于浪潮高端光纤磁盘阵列AS1000系列的数据级容灾方案。具体设计为在主站点和恢复中心分别配置一台浪潮AS1000系列光纤磁盘阵列,并通过光纤链路实现互联。AS1000系列光纤磁盘阵列提供了基于存储设备的数据复制、在线和实时的本地数据复制,或者通过光纤通道SAN或借助于广域网扩展的SAN到远程的复制;并且支持同步和异步的容灾镜像,支持全面的磁盘同步,当主站点出现灾难时,可以确保主站点数据在恢复站点的在线拷贝是可用的,以支持尽快恢复在另一台机器上的关键处理,使恢复通常只用几分钟或者几秒。
对于需要实现应用级容灾的应用来说,可以在数据级容灾方案实现数据可用的基础上,立即在恢复中心的备用服务器上重新启动主站点的应用系统,依靠实时镜像数据或通过备份恢复的数据恢复主站点承担的业务应用。当主站点系统恢复后,恢复中心存储系统的更新数据可以在应用运行不停机的情况下,一次性将数据重新拷贝回主站点继续使用。按照浪潮的灾难恢复方案实施,还可以为用户提供灵活的容灾方式,主站点和恢复站点可以同时运行不同应用,互相备份。
来源:《中国教育网络》2008年12月刊
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。