灾备系统也讲风险控制
作为风险防范系统,灾备系统建设本身在前期规划、方案选择和投产实施后的管理运行,以及真正面对灾难时的切换操作等方面也存在着潜在的风险。
银行业在实现了数据大集中后,系统的运行安全成为风险控制的焦点,目前,已经有多家银行开始或准备进行灾备系统的建设,灾备系统建设的目标是减灾容灾,使企业的系统和数据能够最大限度地防范和化解各种意外和灾害所带来的风险。然而,与大多数工程一样,灾备系统建设本身在前期规划、方案选择和投产实施后的管理运行,以及真正面对灾难时的切换操作等方面也存在着潜在的风险。
可以说,风险防范系统本身也存在风险点,需要小心应对。
笔者认为,灾备系统建设中所涉及的潜在风险大致可分为技术风险、管理风险和投资风险,其中尤以技术选择风险最大,而这三者也存在内在的相互关联,不同灾备级别对应的建设投资规模、所采用的技术以及实施和管理的复杂度也不同,企业应考虑保护计算机系统的原有投资并提高灾备系统建设投资的利用率。
等级观念少不了——总体规划阶段
在灾难备份的世界里,是有等级观念的,级别不同,灾备系统所采用的技术和达到的功能是不同的,在系统建设资金投入方面的差距也很巨大。所以,对企业用户来说,明确企业灾备系统建设的总体规划十分必要。
按照国际标准SHARE 78 的定义,灾备方案根据备份/恢复的范围、生产中心与备份中心之间的距离、连接方式、数据传输方式和允许的数据丢失量等主要关注方面所达到的程度从最低级的无异地数据备份(Tier 0)到最高级的零数据丢失(Tier 6) 分成七种不同级别。(SHARE 78, M028报告中定义的灾备的七个级别和与其对应的数据丢失量与恢复时间情况详见下表)因此,企业需要根据其计算机处理系统中数据的重要性,以及需要恢复的速度和程度,来进行灾备系统建设的整体考虑和不同灾难对业务冲击的分析,并最终确定灾备系统建设的总体规划。
灾难备份等级与业务恢复情况对照表等级/描述 PRO RTO 企业百分比0/无灾备计划 - - <0.3%1/车辆运送方式24~48小时>48小时 <0.1%2/车辆运送+热备份24~48小时24小时 90%3/电子传送<24小时<24小时 6%4/活动状态备份中心 秒级<24小时 <0.5%5/两中心、两阶段确认 秒级<2小时 <0.1%6/零数据丢失 零丢失<2小时 3%
灾备系统建设的总体规划应包括以下几个方面:
1.界定灾备系统的适用范围
分析企业内不同的应用系统,确定灾备系统是一个覆盖整个计算机系统的工程,还是只针对某些关键的业务应用子系统的工程,抑或是对不同类型的业务系统采用不同级别的灾备方案的一个综合性的整体灾备建设工程。
2.界定灾备建设的目标
在业内,一般有两个指标用来衡量灾备系统的成效,即恢复时间点目标RPO(Recovery Point Objective)和恢复时间目标RTO(Recovery Time Objective)。企业的生产系统在单位时间内的数据处理能力或IO流量确定的情况下,RPO实际上成为一个反映灾备恢复过程中的数据丢失量的指标。而RTO则是指从灾难发生到备份系统可以接管原有生产系统所需要花费的时间,这不仅要考虑数据的恢复时间,还应该考虑恢复后数据的完整性、一致性的修复和确认、备份中心计算机处理系统的启动和备份中心的网络切换等全部时间。总体规划中应为灾备系统设定明确的RPO和RTO指标。
3.界定灾备系统的总体架构
根据实际需求、现有技术、所在地域、计划防范的灾难种类和预算投入的资金量等实际情况,确定灾备系统预期达到的级别,并以此来确定灾备系统与生产运行系统在地理位置上的距离(同城还是异地或两者兼备),备份数据存储所在的介质(磁盘还是磁带或两者兼备),备份数据在生产中心与备份中心传输的方式(这就涉及到了具体的计算机存储与网络技术),以及备份中心计算机系统的处理能力和
网络接管所需的具体架构(是否与生产中心采用完全同等数量、容量和性能的计算机、存储设备和网络体系结构)。
小心技术风险——方案选择阶段
当灾备系统建设的总体规划确定后,就可以以此为标准来衡量、对比各种灾备技术方案的优略,进行评估分析。从而选择切实可行的技术方案。在这一阶段,主要面临的风险当然是技术风险。
技术风险包括功能、性能以及技术的领先性与成熟性的关系等方面。
从功能的角度分析,主要看具体技术是否满足企业现在和未来一段时间内的灾备需求和是否适应企业未来计算机系统的扩充和变更。从性能的角度分析,目前各个厂商提供的具体数据备份技术各不相同,究竟孰优孰劣,应结合企业具体的应用系统环境进行分别测试,以得出客观结论。
此外,除了关心厂商提供的数据备份技术本身,还应该考察该技术所使用的切换和维护等操作方法。选择自动化程度高,成熟、可靠、维护简便,同时具有一定的灵活性并能够使企业拥有今后开发和管理自主性的技术方案,避免灾备系统的技术维护和未来的功能增强要特别依赖于某些厂商所提供的昂贵服务的潜在风险。这也在某种程度上反映了灾备系统建设中的投资风险。
目前各个厂商推出的灾备技术在功能上都很相似,都可以提供同步和异步数据传输和物理级的磁盘镜像,并承诺保证生产中心与备份中心之间数据的完整性和一致性。然而,各种技术在其内部实现机理方面采用的具体方法却不相同。笔者认为,在具体技术方案的选择上,大致有以下几个方面需要认真考虑。
1. 备份技术与操作系统
目前,有些厂商的数据备份技术与操作系统关系密切,通过在操作系统中建立专有的逻辑分区和地址空间运行专门的系统程序来控制备份数据的传输和复制。显然,这种技术与操作系统的捆绑更密切,并要求企业的计算机系统具备满足生产系统正常运行之外的一部分计算资源和存储资源。
另外一种是基于磁盘的数据复制技术,可以独立于操作系统、服务器和应用系统,直接通过硬件进行定义和控制。优点是跨平台,同时支持主机系统和开放系统,满足企业跨操作系统的灾备需求。然而,这就要求企业采用同一厂商的存储设备,同时该技术在实际运行中控制操作的复杂性会有所增加,而且其成熟度有待市场的检验。
2. 备份技术对生产系统性能的影响
数据的备份技术实际是把计算机系统访问中的一个写操作在生产中心和备份中心的存储设备上都要进行更新。其中同步技术需要生产中心的计算机处理系统在本地的写操作完成后,继续等待备份中心端的写操作完成,然后才处理下一个请求,对生产中心的计算机系统的处理性能产生消极的影响;而异步技术虽然不必等待备份端的写操作完成,但当高峰时间生产中心计算机系统需处理的IO量很大,特别是写操作量很大时,会导致生产中心端存储设备内存中有大量内容来不及传输到备份端,这一方面影响了生产中心存储设备的效率,进而影响到生产中心计算机处理系统的能力,另一方面也使得备份系统与生产系统的数据丢失量大于原来预设值,因此也影响了灾备系统的性能。
3. 备份技术对网络传输性能的依赖
为了确保对各种灾难和意外情况的防范,企业的生产计算处理系统与其灾备系统之间必然要有一定的距离。通过电信网络和各种设备连接,可以达到几十公里至上千公里。企业的数据在广域网上传输,由此带来的最大问题是网络的时延问题,当然还有网络带宽、电信线路、设备和服务的租赁等一系列问题。显然,数据的备份技术对网络传输性能存在着严重的依赖。
从备份到恢复——操作演练阶段
从“灾难备份”的英文原文—Disaster Recovery可以看到,其实我们现在所说的“灾备”应改称做“灾难恢复”显得更为合适。诚然,数据的备份是灾备系统建设的基础和重要组成部分,但企业信息系统在遇到灾难后的恢复却应该是灾备系统建设的最终目的和归宿。
一个企业的灾备系统建成投产,并不意味着完事大吉,从此可以高枕无忧,而应当看作是万里长征迈出的第一步。如何保持灾备系统的有效性和灾难发生后的及时接管能力?在随后而来的系统日常运行、监控、操作、维护和演练等环节面临的挑战还有很多。这时企业灾备系统面对的主要风险是在管理方面,笔者认为有以下几点需要特别关注。
● 建立和实施一套有效的日常流程;
● 建立和实施一套切实可行、组织严密的定期演练管理方案;
● 建立和保持一支技术熟练、成员稳定的灾备管理和操作队伍。
如何才可以达到上述目的?笔者认为,生产中心与备份中心的计算机人员定期互换岗位,或由备份中心的计算机相关人员每年定期到生产中心工作一段时间也许是一个现实选择。此外,备份中心的综合利用也是一个很好的发展方向。在备份中心对实时备份数据再建立一份拷贝,不但可以用来进行企业计算机系统新业务、新功能的开发、测试,而且也为企业建立数据仓库,进行数据挖掘,进而为企业建设决策支持系统提供了有利的条件。这样,一方面解决了对备份中心的计算机人员在平时定期演练外无所事事的担忧,通过开发、测试、数据挖掘、数据分析和决策支持系统的日常操作与维护等工作,也使他们的技术得以保持和提高,另一方面也使企业对灾备中心的投资实现了效用最大化。■
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库建设灾备系统的风险控制在线全文阅读。
相关推荐: