
| 出版日期:2004-09-13 总期号:1347 本年期号:68 |
|
远程故障切换的考虑因素
VERITAS公司提供 应用程序切换到远程服务器与“本地”故障切换到同一机房内的服务器有很大的不同。理想情况下,所有故障切换都是本地的,故障服务器和备份服务器都可以立即访问所有数据。在这种情况下,备份服务器可以看到故障服务器发生故障那一刻正在写入的实际数据镜像。 远程故障切换无法以这种方式进行的原因有两个: ● 要让两台服务器从同一磁盘进行读写,它们必须是同一存储区域网的组成部分。尽管存储区域网支持的数据传输距离比并行SCSI远,但服务器及其存储设备之间的最大距离不能超过80-100公里。数据中心与其恢复站点之间的距离超出上述限制时,必须对数据进行复制。 ● 要让应用程序故障从一台服务器切换到另一台服务器,导出到客户机的IP地址也必须同它一起切换。如果这两台服务器连接到同一子网,这就不是问题。但如果这两台服务器相距很远,无法位于同一子网中,则必须将主机名称映射到新IP地址中。这一般需要维护备用名称-地址映射表,并命令域名服务器进行主从切换。 故障切换管理软件一般不具有数据复制和主机名重映射的功能。远程故障切换一般需要专用软件。 本地与远程故障切换比较 在设计应用程序的弹性过程中,常见错误是将一个机制同时用于本地集群和远程故障切换。其设计原则是,“如果数据从服务器A复制到服务器B,那么服务器A发生故障,应用程序可以切换到服务器B。”这种方法很显然既经济又实惠,目前看来是正确的,但并非永远正确。 这种方案的缺点是不在其第一次故障切换,而是在其第二次故障切换,有时称故障回切(failback)。一旦应用程序切换到辅助服务器,并运行一段时间,主服务器的数据将变得“陈旧”。对备份服务器的数据拷贝所做的更新不能反映在主服务器的拷贝上。在应用程序回切到主服务器之前,必须将该服务器的数据拷贝更新到最新状态。在许多应用实施中,这需要从更新的备份服务器完全刷新主服务器的数据。这需要时间、努力和网络带宽。在完成刷新之前,主服务器不能接受来自备份服务器的故障切换。 从破坏性站点灾难中恢复,完全刷新主服务器是仅有的主站点恢复方案。但是,要在系统崩溃或预定维护活动后进行故障转回,则本地故障切换,如日志重放本地将更为可取。 集群服务器访问同一数据拷贝(尽管有可能不是同时访问),因此所有服务器的数据视图永远都是自动同步的。但是,使用复制数据,远程拷贝几乎始终都与本地拷贝至少有一点不同步。因此从副本所得的恢复状态比本地恢复状态略微陈旧一些。 用于每日恢复的复制数据的另一个缺点是,与数据中心内的网络链路相比,通常用于复制的广域网的可靠性要差一些。广域网路径会穿过物理上不安全的地区。房屋建设只是能中断网络服务的危害之一。有消息称,从统计上来看,在全美,外部数据网络电缆几乎每隔30秒就被意外切断一次。假定广域网与本地网络一样可靠的恢复计划是站不住脚的。 远程故障切换还要求将服务器名称重映射到备用IP地址。不同建筑中的远程服务器很有可能连接到不同的子网,因此客户机必须重新查找备用地址,以访问应用和数据。最常见的重映射技术是DNS BIND Daemon,它能够预先存储备用映射,并且一有请求就能够激活它们。企业还必须维护一个包含备用映射的文件。为了激活备用映射,所有使用BIND的服务器都必须用备用映射来替换自己的映射,这需要DNS设置一段超时时间。有些管理员将DNS超时时间设置成很高的限值(数小时),以便提高系统和网络在正常情况下的性能。在一场灾难中,等待这样的超时时间流失可能是能够容忍的,但在常规故障切换中也要等待这么长时间就未必能够容忍了。 如果DNS映射表中的节点子网能进行故障切换,那么管理所有名称和地址进行关联所必需的最终局部映射表就成了一种挑战。 管理远程故障切换 最可靠的远程故障切换是将整个本地集群切换到恢复站点的一个(独立的)远程集群。切换部分集群会“打破”集群,可能会妨碍它将其他应用切换到远程服务器。当整个集群切换到远程站点的一个类似集群时,所有服务器都保持自己的切换关系,不会丧失任何本地故障的弹性。 有些恢复站点集群比主站点集群配置的服务器更少、功能更低,因为恢复计划假定移动恢复站点是暂时性的。由于故障切换是暂时性的,更低的性能或暂时无法提供不太重要的应用程序访问就可以接受。 自动化远程故障切换的软件使用很复杂。它必须实现从一个控制台,在多个站点同时管理集群。它应当使管理员能够启动本地或远程故障切换,更改集群配置,监控集群状态的图形表示,并得到它所管理的任何集群中的状态变化通知。 除了同步数据和管理IP地址的复杂性以外,远程故障切换与本地故障切换类似。以前我们提到的所有本地故障的切换要求也是远程故障切换的要求。从根本上说,故障切换就是将关键应用程序从不能运行它的服务器上转移到能运行它的另一台服务器上,而且对用户群的影响非常小。(E5) |
|||||||||||||||||||||||||||