
| 出版日期:2004-08-02 总期号:1335 本年期号:56 |
|
容灾系统
功能要与实用并重 〔北京华商达数据系统科技有限公司总工程师 相晓明〕 所谓容灾,就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。 所谓容灾,就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。 正确认识容灾系统 用户在建立容灾系统之前,首先要进行全面的系统分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析。风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,就必须充分考虑业务系统所在地的自然环境,并针对可能发生的灾难准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。 设计容灾系统,必须提出设计指标。既然建立容灾系统是为了数据或者业务的快速恢复,容灾系统的设计指标就与业务系统的数据可恢复性密切相关。RTO代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO代表灾难发生时已经备份的数据与生产中心数据的时间差。此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够给备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。 企事业单位中的决策者在实施容灾系统工程时,必须制定详细的容灾计划。通过制定容灾计划,可以帮助用户根据自己的业务模式来确定容灾系统的设计要求,根据系统分析决定容灾系统设计参数,根据业务系统的区域网络环境选择合适的容灾技术。容灾计划还应该包括制定灾难发生后的应急程序,建立启动容灾系统的管理机构和各方面的行动小组,以及一些非技术的因素(如损失评估与保险商、设备重建与供应商、社会公共关系与系统用户等)。 容灾工程的系统分析 容灾工程的系统分析包括业务系统的风险分析(Risk Analysis)、容灾系统对业务系统的影响分析(Business Impact Analysis)和容灾系统的投入和产出分析(Cost-Benefit Analysis)。 建立容灾工程的最终目的是,保证在灾难造成对业务数据破坏后,业务数据的可恢复性,所以,首先要分析本地区影响业务数据安全性的灾难有哪些种类。灾难可以分为自然灾难、社会灾难和人为灾难。 自然灾难包括火灾、水灾、地震等突发自然灾害造成的业务系统的灾难。在实施容灾工程时,特别要注意容灾备份中心的选择,要建立在自然灾害较少的地方。社会灾难包括区域性电力系统故障、战争引起的破坏等。人为灾难包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒造成的数据灾难。近几年,人为灾难更为突出,特别是计算机病毒造成的数据损失触目惊心。 数据复制操作的发起来自业务系统,不论来自系统的计算层、网络层,还是存储层,肯定都会影响到业务系统的性能。对于那些要求高性能的业务系统或者已经是高负荷运行的业务系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不同, 比如,一个采用同步数据复制技术的容灾解决方案,如果容灾备份中心与业务中心距离超过100公里以上,需要考虑数据传输的时延对业务系统IO性能造成的影响,距离越远,业务系统IO性能下降的速度越快。 容灾系统的设计指标 容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有RTO (Recovery Time Objective)和RPO(Recovery Point Objective)。 RTO是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO值越小,代表容灾系统的数据恢复能力越强。各种容灾解决方案的RTO有较大差别。基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,需要投入大量资金。 RPO是反映恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性是不相同的。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。 不同容灾解决方案的RTO和RPO是不相同的。设计容灾系统时不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,还有一些指标有可能成为选择容灾解决方案的主要因素。如某些地区为了防范一些特定自然灾害,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份中心与业务中心的距离要求就成了容灾系统的重要指标。 进行容灾系统设计时,必须根据企事业的业务系统使用情况,并且综合考虑地理环境、网络条件、投资规模、业务系统长远发展规划等各种因素,制定合理可行的容灾系统设计指标。 容灾技术的分类 同步复制是指向业务系统存储数据和向备份系统存储数据同时进行,只有在两地数据存储操作完成后,才能够进行下一个数据存储操作,因此,同步复制的IO操作时间以最长的IO用时为衡量尺度。异步复制是指对业务系统的数据存储操作独立进行,对备份系统的数据存储操作按照排队方式进行,业务系统的IO操作不受异地备份系统的IO操作影响。为了保证数据传输排队的次序,异步复制需要一些特殊技术的支持。 业务系统的数据是源数据,备份中心的数据是目标数据。在双工模式下,A业务系统可以存储B业务系统的目标数据,反之亦然。在多向复制模式下,源数据可以有多个目标数据作为备份。在集中模式下,容灾备份中心可以存储多个业务系统复制来的目标数据。 冷容灾中心的目标数据只能在数据恢复时使用。热容灾中心的目标数据在一定条件下可以离线使用。对于数据库来说,热容灾中心的数据库时刻处于打开状态。 技术最简单和投资最少的容灾解决方案,是基于数据备份与恢复技术的解决方案。只要对业务系统每日备份的数据制作一个相同的拷贝,通过交通工具运输到容灾备份中心保存起来,这样不需要购买大量的设备和软件,只需要对备份数据的介质进行有效管理。如果在容灾中心建立备用业务系统,当业务系统遇到灾难破坏后,备用中心能够很快投入工作。不难想像,这种容灾技术的RPO是最差的,但对特定的业务系统不失为一个高性价比的容灾解决方案。 国内常见的容灾解决方案大多是采用在相同存储子系统之间进行数据复制的方式,使用安装在存储子系统上的数据复制软件,保持业务系统的存储数据逻辑卷与备份系统存储数据逻辑卷的一致性。存储子系统的容灾技术可以选择同步复制或者异步复制方式。由于是逻辑卷级的数据复制,存储业务系统源数据的存储子系统也可以存储其他业务系统的目标数据。按照逻辑卷复制的要求,存储目标数据的逻辑卷是不能被业务系统直接使用的,所以,存储子系统的容灾技术属于冷容灾方式。 另一种基于主机卷管理软件的容灾技术与存储子系统的类型无关,与业务系统的服务器平台有关。主机卷管理软件的容灾技术同样可以选择同步或者异步复制方式。通过卷管理软件远程数据复制的扩展功能,可以把业务系统的源数据复制到多达31个备份中心的存储系统的指定逻辑卷。存储目标数据的逻辑卷不能被业务系统所使用,卷管理软件的容灾技术属于冷容灾方式。 虚拟存储技术的发展,加强了基于网络的存储管理。由虚拟存储系统的管理平台负责存储池内所有数据逻辑卷的管理,安装在虚拟存储管理平台上的数据复制软件可以组成虚拟存储系统虚拟逻辑卷之间复制的容灾解决方案。虚拟存储容灾技术也是基于逻辑卷数据复制方式,特点与以上两种容灾技术相似。虚拟存储容灾解决方案与存储子系统的类型和业务系统服务器的平台无关,具有较好的灵活性,适合作为多业务系统数据中心的容灾解决方案。 在选择容灾技术时,需要考虑业务系统的类型是单业务系统还是多业务系统,是数据库应用还是非结构化数据,是数据容灾还是业务系统容灾。用户可以根据要求,选择一种主要的容灾技术作为容灾解决方案的基础,辅以其它容灾技术满足特定的要求。制定容灾计划是一项涉及内容广泛且复杂的技术化工作。企业建立一支配置完整的容灾服务队伍,无疑将会提高IT系统的管理成本。此外,容灾系统使用的概率很小,设备的利用率会较低。因此,从容灾工程发展的趋势看,采用外包服务对大多数企事业单位是一个明智的选择。 (E5)
权衡灾难备份方案
执行容灾计划的流程 |
|||||||||||||||||||||||||