ccidnet????

出版日期:2004-12-20 总期号:1374 本年期号:95

本期导读
要闻综合
中国信息化
2004编辑选择奖特别发布 
渠道与市场
华东专刊
华南专刊
西南专刊
东北专刊
存储世界
集群架构防灾
——解析VERITAS高可用性容灾解决方案
VERITAS产品市场经理 张衡

  许多企业需要对其关键任务应用和数据库实施灾难恢复/业务永续方案,以实现系统的高可用性。如果能够充分利用现有的硬件和基础架构,那么就极有可能在有限的预算之内实现这些需求。那么,在有限的预算内,企业如何选择最佳的方案?通过下面对VERITAS几种集群架构的介绍,企业或许能够找到答案。

  许多企业需要对其关键任务应用和数据库实施灾难恢复/业务永续方案,以实现系统的高可用性。如果能够充分利用现有的硬件和基础架构,那么就极有可能在有限的预算之内实现这些需求。

  从标准的基于磁带的数据恢复到广泛区域内的同步数据复制,进行灾难恢复的方法有很多。对于那些没有基础架构支持广泛区域内复制方案的企业,仍然可以采用其他方法获得应用和数据库的快速恢复,同时还能够对本文中所讨论的站点故障实施保护。那么,在有限的预算内,企业如何选择最佳的方案?通过下面对VERITAS几种集群架构的介绍,企业或许能够找到答案。

  企业数据中心的情况千差万别,如何选择合适的高可用性基础架构来满足每项业务的管理或可用性需要,对企业的IT部门来说是一个挑战。鉴于此种情况,VERITAS提供和支持几种集群架构,能够满足大多数公司数据中心架构的需求。

  无论高可用性或灾难恢复计划是针对本地单站点,还是短距离内城域网(MAN),甚至是全范围内广域网(WAN)的,也不论数据中心的基础架构或SAN和网络连接的可用性是怎样的,VERITAS都可以提供已经被广泛验证的高可用性灾难恢复架构。

  本地集群

  本地集群也称共享存储集群,是目前最流行的通过应用和数据库故障切换提供高可用性的方案。

  一个VERITAS Cluster Server(VCS)集群由连接到共享存储设备的不同集合的多重系统构成。VCS监控和控制应用及数据库,并且能够在软硬件发生多种故障时对应用和数据库进行故障切换或重启。定义一个集群为一套连接到冗余网络互联的系统。

  这种方案能够在应用、操作系统或硬件在某个站点发生故障时,恢复本地的Unix或Windows服务器,也可以尽可能降低应用系统计划内和计划外的停机时间。

  环境

  ●用于应用和数据可用性的冗余服务器、网络和存储架构;

  ●系统被连入一个专用的网络互联结构中,通常使用以太网传递系统状态和软硬件资源的信息——使用快速专用协议GAB/LLT进行状态通信;

  ●集群中的每个系统都能够在需要时访问共享存储系统上的应用数据;

  ●不把数据复制或镜像到其他数据中心,而是复制到一个扩展的集群(单一阵列中的镜像/RAID用来提供磁盘保护);

  ●SAN结构可以简化大型集群(大于两个节点),这在当前的所有集群中具有代表性;

  ●所有集群组件服务器、SAN结构、存储系统全部共存于某个站点上;

  ●集群中的所有服务器在一个单独的位置(单数据中心)。

  优点

  ●使用共享存储系统上的数据实现应用恢复(零数据损失);

  ●将应用和数据库的停机时间降至最低(自动故障切换);

  ●优化服务器整合(N+1故障切换);

  ●快速恢复时间目标,满足严苛的服务水平协议和高可用性。

  缺点

  ●在灾难中,数据中心或站点成为单一的故障点。

  何时考虑本地集群

  ●有特定的应用和数据库需要保持高可用性,意味着不能长时间停机;

  ●对应用和数据库长时间停机感到失望;

  ●希望在计划内停歇期间避免应用或数据库停机;

  ●无法在应用、数据库或服务器故障时满足恢复时间目标。

  在基于SAN的结构中,VERITAS Cluster Server 能够提供N+1(N个运行服务器和一个待机服务器)和N-to-N(所有服务器都在运行服务)集群。它对将几乎全部应用和数据库进行集群有着重大的意义。现在常见的集群配置是,为每8个或更多运行通用应用和数据库的服务器配备一个“备用”服务器,这可以减少计划内和计划外停机时间。IT管理员检测故障以及采取适当的措施解决问题所花费的时间量,可能会造成数小时的停机。应用、数据库或这两者都停机时,用户无法访问数据。

  成本比较

  由于IT管理员不得不学习一种新技术,且要提供一台服务器用于故障切换,所以实施包含任何集群技术的本地高可用性方案的成本增加了。但是,通常情况下,停机时间的成本远远超过了采用能显著减少计划内外停机时间的新技术成本。再者,VCS超越了传统思想中的1台服务器+1台备用服务器的模式。这种模式是第一代高可用性软件需要的方式。通过使用N+1集群,VCS的成本更低。例如,在1∶1集群模式(一台主动服务器和一台备用服务器)下,服务器的冗余成本是100%;而采用8+1集群模式,冗余成本降低到12.5%。

  扩展集群

  扩展/区域集群(Stretch/Campus clustering)是一种扩展到两个以上站点的集群。它使用光纤连接进行数据镜像和集群通信。

  当企业在办公地点采用了SAN结构,且要在短距离内进行灾难恢复时,通常采用这种典型结构。VERITAS在华尔街的许多客户已经搭建了区域集群。他们利用VERITAS Volume Manager镜像将数据中心隔开几公里远,并通过这种方式为本地站点故障提供了灾难恢复能力。另外,区域集群为扩展数据中心提供了持续的可用性。

  环境

  ●一个集群通过子网或SAN光纤通道扩展到多个建筑、数据中心或站点;

  ●在建筑、数据中心或站点,最多可自由分配32个节点;

  ●本地存储系统在集群节点间相互镜像;

  ●使用DWDM的新数据交换机,能够支持长达100公里的距离;

  ●站点间的距离取决于存储网络基础架构。

  优点

  ●区域集群对每个站点都提供了本地高可用性;

  ●单一方案,无需复制(采用远程镜像同步将数据拷贝到全部站点,零数据损失);

  ●将应用和数据库的停机时间降至最低(自动或手动故障切换);

  ●充分利用现有的SAN基础架构;

  ●外观和操作与配置本地集群环境很相似,无需进行特殊配置;

  ●防护单一故障地点发生的与气候相关的停电和电力网故障;

  ●允许数据中心扩展,创建一个跨越站点的服务器、存储系统和应用的单一逻辑群;

  ●允许跨多重网络进行故障切换(提供DNS升级)。

  缺点

  ●需要SAN架构光纤通道;

  ●距离受存储系统限制,拥有足够性能的镜像存储能力。

  何时考虑区域集群

  ●已经使用SAN光纤通道;

  ●两个站点之间的距离是80公里;

  ●想通过提供灾难恢复水平将已经在光纤中投入的投资发挥到极限。

  使用VERITAS Volume Manager、FlashSnap VERITAS Cluster Server,无需在软件和硬件上花费更多的资金就可以获得灾难恢复水平。VERITAS Volume Manager内嵌了在两个站点间提供镜像的技术,可在远程站点上通过同步保存数据副本的方式达到保护数据的目标,而应用和数据则利用VERITAS Cluster Server来保持系统的高可用性。VERITAS Volume Manager和 VERITAS Cluster Server的有机结合能够提供数据和应用的可用性,这种可用性不仅用于本地数据中心,也可在建筑或站点发生停电、火灾或洪水等意外事件时提供灾难恢复水平。

  成本比较

  实施这种方案能充分利用已经在网络基础设施上的投资,同时提供灾难恢复水平。由于需要花费时间在另一个站点重建配置,因此从本地灾难恢复的代价是惨重的,甚至可能会导致业务流失。这种架构涉及到配置VERITAS Cluster Server和VERITAS Volume Manager,相对并不昂贵。轻度灾难恢复解决方案便能够满足大多数灾难恢复需求。

  城域集群的选择

  RDC是扩展到两个以上站点集群,使用数据镜像的复制方法。它使用第二层网络连接进行集群通信。由于延迟影响应用性能,它允许的隔离不像广域内异步TCP/IP方案那样应用广泛。但是,RDC确实为多种灾难恢复情况提供了一种直接的单集群解决方案。

  RDC配置内的复制必须同步进行自动故障切换(VERITAS不希望集群做出自动故障切换决策,在异步环境中使用数据副本之外的数据。异步复制需要手动干预,以保证你确实想将集群切换到旧版本数据)。现在,这种结构仅支持Solaris、HP和Windows系统。

  与RDC相关的一个问题是,何时考虑用这种方案替代含VM镜像的区域集群方案。通常的准则是这样的:如果你没有SAN基础架构,也不想对其进行投资,但却能够为VCS运行专用的以太网,并进行同步复制,这时就可以采用复制数据集群(RDC)架构。在大多数案例中,如果已经建立了SAN,区域集群是更好的选择,因为卷镜像已经包含在VERITAS Volume Manager中,无需再投资购买复制软件。另外,在任何情况下,镜像功能都比通过IP网络进行同步复制的性能优越。

  环境

  ●最少两台服务器,每个被复制的存储系统有一台服务器;

  ●集群通过以太网(IP)连接在多栋建筑、数据中心或站点展开;

  ●本地存储系统在每个地方的集群节点上进行同步复制;

  ●一个集群,而位于多个站点的服务器是同一个集群的一部分。

  优点

  ●可以使用IP而不是SAN(使用VERITAS Volume Replicator);

  ●无需SAN基础架构(光纤);

  ●防止本地建筑物、数据中心或站点发生的灾难;

  ●充分利用现有的以太网基础架构;

  ●同步复制数据,并且避免站点故障导致的数据损失。

  缺点

  ●解决方案更加复杂(必须在任何故障情形下通盘考虑复制方向和数据流通);

  ●如果在远距离上使用同步复制,应用性能会受到潜在影响;

  ●受限于两个站点;

  ●只能进行同步复制。

  何时考虑复制数据集群

  ●需要灾难恢复并且站点距离不超过100多公里;

  ●另外一个站点在200公里内,并且用以太网作为网络连接。

  RDC类似于区域集群,但是它使用IP网络复制数据,而不是通过SAN光纤通道。成本的节约体现在企业不必购买SAN光纤通道或将SAN光纤通道用于RDC方案。

  成本比较

  企业可采用SAN光纤通道或IP(以外网)网络,利用SAN光纤通道建立区域集群的成本和投资回报大于通过IP网络复制数据的复制技术。

  广域灾难恢复

  广域灾难恢复在灾难发生时为数据和应用提供了最多的保护。这种结构需要利用两个或多个子网,配置两个或更多的数据中心。站点停电时,所有服务和数据将被迁移到二级“热”站点上,对用户而言仍然是可用的。这种结构牵涉到二级站点的准确性。例如,二级站点的位置不应该与发生故障的主站点处在同一条线上,不能接近机场或处于相同的电力网内,并且要保持足够远的距离,以避免气候同时影响两个站点。

  典型的广域灾难恢复解决方案要求IP网络可用,以及客户对距离的需求超过100公里。二级站点是“热”站点。在主站点发生故障时,二级站点的服务器和存储系统是可用的。站点之间通过IP网络相互连接。

  环境

  ●在主站点配置本地集群,在二级站点配置另一个本地集群,至少两个集群;

  ●在每个站点的集群间复制数据。VERITAS每个集群最多支持32个节点,每个站点最多支持64个节点。

  优点

  ●本地集群的全部优点;

  ●异步模式下复制数据的距离是无限的;

  ●在本地建筑、数据中心或地理区域内防范灾难;

  ●使用IP网络支持任何距离上集群到集群的通信;

  ●本地自动进行应用的故障切换,也可通过手动“单键点击”恢复到远程站点;

  ●为VERITAS或第三方复制方案提供支持。

  缺点

  ●在远程站点建立网络基础架构,增加了服务器和存储系统的成本;

  ●如果在异步模式下运行时发生故障,会有数据损失的风险;

  何时考虑采用广域灾难恢复

  ●拥有可被用作二级灾难恢复站点的远程办公数据中心;

  ●政策强制要求拥有二级远程办公机构,实现灾难恢复方案;

  ●有特定的关键任务应用或需要保护的数据,并且在办公机构内所采用的方案面临自然灾害(例如气候、地震等)的威胁。

  用户或许有在距离主站点80公里以外的地方建立二级数据中心的需求,用于防护本地和城域内的灾难。为了实现这种昂贵的架构,企业不得不购买软硬件和网络基础架构。建立二级站点可能基于政策或政府的强制要求、服务水平协议、业务本身的性质(例如银行业或网络主机服务)或主站点的位置。

  成本比较

  配置广域灾难恢复架构的成本是昂贵的,通常是迫于政府强制性规定或为了满足政策的要求。在远程站点上配置硬件、软件和网络基础架构对于大多数公司来说是令人生畏的。因此,通过配置来协助提供专业服务是非常重要的。(E5)


  本地集群


  扩展集群


  城域集群

  结 论

  灾难恢复的最优方法起始于磁带备份和使用磁盘卷镜像的数据冗余。当管理员配置一个可升级的集群架构,与促进广域数据中心迁移的自动灾难恢复计划协同工作时,共享存储系统有助于保持应用在线。当业务需要拓展时,企业能够添加相应的可用性水平,在本地建立备份策略。通过配置实现高可用性和灾难恢复的产品,例如VERITAS的集成软件套件,企业能够在数据中心环境中保护他们的数据和应用,同时配置适合业务需求的IT架构。