ccidnet????

出版日期:1999-09-06 总期号:855 本年期号:65

本期导读
要闻综合
电脑工作室
市场
硬件
软件
infotimes
99.999%可用性技术革命
hp netserver网络服务器“超级保障”高可用性解决方案
王皓

  企业用户到底需要什么样的服务器?计算能力、计算效率高固然重要,但是可用性、易用性、可管理性等也是不容忽视的性能指标,尤其对于一些证券、银行、海关等关键任务机构对高可用性、可管理性的要求更为明显。所以,如何提高服务器的可用性、可管理性已经成为各服务器厂商努力的重点所在。

  在关键任务计算领域保持业绩领先的惠普公司已经具有25年的成功经验,其pc服务器产品致力于发展map(manageability availability performance)策略为用户提供无忧的计算环境,确保用户的网络解决方案能够达到最高水平的可管理性、可用性和良好性能,确保用户在关键业务的环境里取得最高的系统开机时间和数据保护功能。在1998年惠普公司已经率先在windows nt平台上采用hp netserver lxr 8000关键任务服务器套件推出了99.99%的可用性开机时间承诺。现在,惠普公司又一次率先在nt市场上推出了“超级保障”解决方案,使得99.999%的高可用性指日可待。


  可用性概念


  对服务器来说,高可用性就意味着最大化的服务器开机时间,也就是最小化的服务器计划外停机时间,从而可以很好地保护关键性数据、提高生产率,通过巩固用户及系统存储,实现集中化的系统管理,来降低整体拥有成本及保护投资。

  从一般我们所听到的百分之多少的可用性,就可以知道服务器工作过程中意外停机时间的多少,99%的可用性也就意味着每一年有三天半的计划外停机时间,目前惠普已经做到的99.9%的可用性是保证一年内的意外停机时间不超过8.75小时,而99.999%的高可用性则意味着一年内的计划外停机时间只有5分钟。

  不同的可用性对用户的使用影响不同,根据影响程度可以将可用性分为几个等级,如表1所示。其中可用性级别0(al0或常规可用性级别)指出在系统崩溃时,客户端将无法访问到服务器资源,而且任何未保存的数据和操作都将丢失,等待故障完全排除才能继续执行任务;使用故障切换技术或高级集群技术时,当故障出现时只是在服务器发生切换及恢复过程中工作中断;而最高的可用性级别(al4或持续可用性级别)则可以保证即使发生多种故障,服务器仍可以向用户提供服务。




  图1 惠普网络服务器“超级保障”高可用性方案


  惠普“超级保障”高可用性技术方案


  惠普公司的高可用性策略是将服务器硬件和软件的方案、支持及服务融为一体,其高可用性方案的核心是承诺将一直采用开放技术,被微软公司认可的基于标准的“off-the-shell”硬件及软件是提供不停机、连续数据访问、不间断客户端连接、容错力持续性能的要素。该方案的宗旨是在发生服务器硬件故障、软件故障及环境问题(如自然灾害等)时仍可以避免服务器停机。

  惠普网络服务器“超级保障”高可用性方案并没有对相关软件、硬件提出更高的要求,它只需要标准的hp netserver、标准的microsoft windows nt server以及不需修改的“off-the-shell”应用程序,如microsoft exchange等,因此用户不必去购买专有的网络操作系统、中间件及应用。该方案的一个重大突破就是可以支持任何标准的32位windows nt的应用。

表1 不同可用性级别的分类及容错能力

可用性级别

容错能力

举  例

可用性级别4:持续可用性

发生故障及维修过程中工作不间断

高可靠可用性

可用性级别3:高可用性

在服务器发生切换及恢复过程中工作中断

高级集群技术

可用性级别2:高可用性

在服务器发生切换及恢复过程中工作中断

故障切换(fail over)

可用性级别1:数据可用性

数据恢复之前工作中断

raid及数据镜像

可用性级别0:常规可用性

软硬件故障造成服务器停机

部件冗余,如热交换电源、风扇等


  惠普网络服务器“超级保障”高可用性方案系统结构如图1所示,它是由四台独立的hp netserver组成的服务器阵列作为一个虚拟的容错主机工作,计算服务器和输入/输出服务器(即i/o输入服务器)相互独立,且两个对称的服务器组(一台计算服务器+一台输入/输出服务器组成一个服务器组)是同步运行的,所以在这个服务器阵列里没有单点错(spof)服务器阵列使用成对的网卡形成冗余,当网络上网线、网卡、交换机等有故障发生时,用户服务不会被中断。

  该方案对系统的可用性的有效提高,主要体现在以下几个方面:其一,将应用程序、网络操作系统与输入/输出子系统分隔开,可以避免软件bug对用户的影响;其二,应用程序及网络操作系统由两台计算单元服务器同步执行提供冗余,其中一个服务器或其它部件发生故障不会影响到用户访问;其三,输入/输出单元双服务器镜像结构保证硬件部件故障不会导致系统瘫痪。

  从方案的配置上来说,用户可以根据需要做不同的选择,可以把两个hp netserver lh3r和两个hp netserver lpr安装在一个2.0米高的机柜中组成数据中心优化方案,在高可用性的同时达到空间优化的目的;也可以把四个服务器分成两组安装在两个1.3米高的机柜中组成灾难容错优化方案,每个机柜中安装一个hp netserver lh3r和一个hp netserver lpr,两个机柜可以摆放在最远间隔为1.5公里的两个地方,两个地点以光纤通道连接,这样可以提供灾难容错的功能,即使在一个地方发生水灾或火灾,别的地方也不受影响;而把四个hp netserver lpr服务器安装在一个1.3米机柜中可以实现远程办公室优化方案,得到高密度空间优化,提供远程管理,支持远程备份,是一种经济高效的解决方案。


  传统集群技术与惠普高可用性技术对比


  集群技术是一种传统的高可用性方案,集群的设置与管理较为复杂,当一个集群中某一个服务器(或一个节点)发生故障时,集群只是简单地将用户访问重新定向到集群中另一个服务器,在这一过程中,故障服务器(或节点)上的应用将在另一服务器接管后被重新启动。

  从通用上讲,集群要求运行支持集群的应用程序,这些应用程序必须能够检测到系统运行在一个集群环境里,具有切换到另一服务器的能力,以及具有优异的恢复能力。

  集群技术可以在一定程度上减少停机时间,但却无法将其最小化,主要是因为集群技术是基于应用程序重启、用户访问重定向的机制,即使是高级集群方案,在应用程序恢复时也至少需要5分钟至几小时的停机时间,所以其可用性的提高还是受到限制。

  而惠普网络服务器高可用性方案的优势在于在服务器发生故障及修理的过程中不会造成服务中断,因为它是专门针对无法容忍停机的用户设计的,从根本上消除了停机因素。在这一方案中,四台hp netserver组成一个服务器阵列,作为一个虚拟的容错主机工作,例如,在应用程序发生故障时,容错主机将故障和用户隔离开,用户端的访问不会中断。在一个服务器阵列的结构中,没有故障切换(failover)的概念,一台服务器发生故障时,只是简单地将其从阵列中移去,当这台服务器修理好后,无需人工干预即可重新加入到服务器阵列。

  图2是惠普网络服务器“超级保障”高可用性方案与传统可用性方案性能的对比。以每个服务器支持1000个用户为例,传统可用性方案的情况下,四个独立的服务器的环境中,如果其中一台服务器发生故障,会有1000个用户受到影响,直到故障服务器修复;在两个传统集群中(无单点错集群),每个集群可支持2000个用户,如果一台服务器发生故障,会有2000个用户受到影响,直到集群故障切换完成、应用程序重新启动。在惠普网络服务器“超级保障”高可用性方案环境中,服务器阵列可支持4000个用户,如果一台服务器发生故障,将没有用户受到影响。

  不过也应该明确,hp netserver高可用性解决方案在技术上可以达到99.999%的年平均开机时间,结果对于不同的用户可能有所不同,但是这一技术已经在用户的生产环境中成功地运行达15000小时。另外,由于可能发生人为误操作及自然灾害的关系,高可用性技术必须结合高级关键任务服务器才能达到99.999%的可用性水平。

  


  图2 惠普高可用性方案与传统可用性方案性能比较