
| 出版日期:2000-01-10 总期号:891 本年期号:03 |
|
构建稳定可靠的系统环境
王皓 传统上,高可用性解决方案是应用于小型机基础上的一整套解决方案,但是随着pc技术的发展,高性能pc服务器的运算速度和功能已经达到甚至超过了传统意义上的小型机,于是如何在pc服务器基础上架构一个稳定、可靠的系统环境就成为目前广大用户的迫切需求,一些领先厂商也都纷纷推出了相应的解决方案。这里我们给你介绍的是几种典型的双机解决方案。 gds双机之星 unix中国公司开发的双子星gds是一种典型的“双机容错系统”。双子星gds除了完全具备双机容错系统的所有功能外,自身还附加了很多实用功能,所以,系统推出后,已经在银行、邮电、保险、政府部门迅速拥有了广泛的客户。 集群———gds的基础 面对如何确保企业关键性业务中系统数据的完整性、安全性和可靠性所带来的挑战,双机或多机系统高可靠性方案日渐得到重视,这也就是gds系统的基础———cluster(集群)技术。 gds系统采用的是目前较为普遍的基于共享磁盘阵列和集群的方案:由两台或多台独立的主机提供不间断的服务给前端的使用者,集群软件通过两条以上的容错侦测信号线定期自动侦测,当任一主机有故障发生时,集群软件会迅速加以判断和分析,确认该主机的错误状况,一旦主机出现停机、网络接口异常、数据存储介质异常、掌管程序异常等情况,集群软件会自动结束异常主机的工作,由另一台主机按设定的程序来接管异常主机的工作。
图1 gds双机容错系统 冗余———gds的保障 gds的磁盘阵列还采用了硬件冗余技术,如双电源、双控制器、双风扇、电池保护装置、硬盘回路散热技术、硬盘防尘技术以及raid技术,从而保障了磁盘阵列自身的可靠性。 采用了多组热拔插风扇之后,开机时两电源同时以150w的功率供电,当某一电源发生故障时,另一个电源瞬间会从150w上升到300w供电,发生故障的电源可以在线更换;硬盘发生故障时系统会自动启动报警装置,硬盘指示灯会告知哪块盘出了错,如果有备份盘,会自动替换故障盘,重建数据,如没有备份盘,用户可以按照指示灯把故障盘换掉,系统自动重建数据;当一个控制器发生故障时,系统自动报警,并且另一控制器会接替故障控制器继续工作,故障控制器可拆下修理,不会影响正常的工作;在磁盘阵列上还备有保护内存的电池,停电后电池会确保把内存中的数据完整地写入硬盘中。 此外,在磁盘阵列中还有一种非常至关重要的技术———raid非独立磁盘冗余阵列。通过raid子系统,用户可将数据和应用分布在多个硬盘上,而raid子系统对硬盘来说就像一个逻辑设备,并可为多用户计算机平台带来更高的数据可靠性、更大的容量和更高的i/o传输性能。 软件———gds的神经中枢 借助于硬件设备的冗余,虽然可以保障系统在单个硬件设备出现故障时调用备用设备加以替代,但是如何判断系统故障原因以及如何对症下药,却是gds系统软件的功劳。 通过rs232连接或网络连接监测线路,gds可以监视主机的运行情况,当出现操作系统、网络、数据库及应用系统故障时,gds能够自动、快速地侦测到故障状态,并且会自动、快速地将该主机上的作业转接到另一台主机上继续运行;当故障主机修复后,gds能够自动或人工地恢复双机同时运行的状态,同时cluster软件可将原来的工作程序及磁盘阵列上的数据自动切换回修复的主机上,整个恢复过程由cluster软件自动完成。 多种接管模式 gds系统支持多种接管模式。第一种是主从方式:一台主机支持应用系统的运行,另一台后援主机处于等待状态,一旦应用系统不能正常运行,后援主机主动接管应用系统,故障主机恢复后可自动或人工地作为后援主机加入到双机系统中。 另一种就是对等方式:应用系统的不同子集分别运行在两台主机上,两台主机分别监视对方的运行状态。一旦一台主机上的应用系统不能正常运行,另一台主机主动接管故障主机上的应用系统作业,并保证应用系统的正常运行,而当故障主机恢复后,作业也自动回复。 最后还有双网卡方式:通过冗余网卡,保证网卡发生问题时由备份网卡替代故障网卡,而不致发生误切换。 hp双机双控容错方案 惠普双机双控容错系统是针对证券行业量身定做的,为了提高网络系统的稳定性,除了采用冗余部件的服务器以外,还解决了服务器系统的容错问题。该方案结合了惠普服务器产品的安全可靠性与集群技术的优点,针对集群技术,将netserver服务器做了许多优化和改进,满足了集群的所有硬件连接要求。 双机双控容错系统由两台hp netserver服务器构成,每台服务器拥有各自的系统盘,用来安装系统软件、数据库软件、应用软件和双机软件。 证券行业作为处理关键任务的机构,惠普建议用hp netserver lxr8000作为交易服务器的硬件平台,进行交易数据的大量处理。而使用lh系列的服务器作为行情和行情的实时备份硬件平台进行行情数据的处理。系统示意图如图2。
图2 hp双机双控容错方案 两台服务器拥有共享的数据盘,用来存储应用数据。系统盘做raid1镜像冗余,数据盘做raid5级冗余。两台服务器拥有各自的raid控制卡,形成双控结构。硬件结构示意图如图3所示。
图3 hp双控结构示意图 结构特点 惠普服务器双机双控系统从maps2原则(manageability、availability、per formance、service and savingcost)出发,使整个系统成为一个安全、可靠、可管理且拥有良好性能价格比的系统。 *可靠性 采用两台相互独立的netserver服务器,每台服务器都能独自承担系统服务的要求。其中包含两个独立的raid控制器,形成双控机制。当一个raid控制器发生故障时,系统仍然能正常运行。另外,系统盘和共享数据盘分别做了不同等级的容错,保证了系统在任意一个硬盘故障时仍然能正常运行,也保证硬盘出现故障并被修复后,系统软件和应用软件不会丢失任何数据。 *可管理性 由于两台服务器的系统盘部分做了raid镜像备份,所以只要更换发生故障的硬盘即可排除故障,不必重新安装服务器系统软件和应用软件,降低了故障修复的复杂性,缩短了故障修复时间。惠普服务器双机双控系统还提供可选的remote assistant(远程助理),使系统管理员可以进行远程监控。当系统服务器发生故障时会记录故障信息并自动进行远程报警,向系统管理员发出寻呼信号,而且还可针对不同错误情况给出不同的呼叫代码。 工作模式 在中心结点,服务器必须提供两项服务即应用服务和数据库服务。两台服务器都安装了应用服务和数据库服务软件,数据库的数据则存放在共享盘中。在正常情况下,一台服务器运行应用服务而不运行数据库服务,处理客户端的应用请求;另一台服务器只运行数据库服务而不运行应用服务,对共享盘拥有控制权并对共享盘中的数据进行存取。
图4浪潮双机备援客错系统 当一台服务器发生故障,例如数据库服务器出现操作系统挂起、死机、网卡坏或硬盘控制器坏等情况时,应用服务器将启动数据库服务,由另一网卡接管数据库服务ip地址和共享盘的控制权。此时,这台服务器同时提供应用服务和数据库服务。客户端仍可继续进行对服务器提出业务请求,整个系统的运行不会中断。在原数据库服务器恢复正常后,又可选择适当时机切换到正常操作状态。 浪潮双机解决方案 随着社会生活的信息化,各企事业单位都面临着需要一个快速稳定的数据资料处理中心,以便达到经营目的,进而向广大客户提供完善的服务。如果一旦这个数据处理中心无法正常运转,就会造成业务停顿,导致不可挽回的损失,可见一个高速稳定的计算机数据处理系统对企业的成败起着相当重要的作用。 浪潮服务器高可用性平台设计方案,一方面可使系统不致因故障而停机,另一方面充分利用了主机资源,尽可能达到理想的性能价格比。 双机的实现方法 浪潮高可用性平台向是双机通过scsi接口共享raid磁盘阵列的双机备援容错系统。通过scsi接口共享外部存储设备,虽然增加了外设费用,但是由于采用该方案可以实现最多16台机器的集群,极大地提高了系统的可用性及可扩展性。浪潮高可用性平台目前主要提供两类操作系统下的解决方案:一类是基于nt操作平台的双机解决方案,另一类是基于unix(linux)操作平台的解决方案。 ha(双机备援容错系统)系统主要由双机、磁盘阵列以及ha软件组成,其基本结构和组成如图4所示。 双机加raid双机备援容错模式是ha系统的典型结构,它有以下几个显著的特点:使用了raid磁盘阵列,raid级别可以从0-5灵活选择,保证了数据的安全性;两台主机可以各自进行不同的工作,二者之间用以太网线及rs232串行电缆相连,侦测对方的运行情况,一旦其中一台发生故障,另一台将在线接管故障主机的所有工作包括在raid磁盘阵列上的数据;双机容错软件ha(high availability software)解决了系统永不停机的问题。 基本工作原理 在两台计算机上运行ha软件,ha软件通过计算机串口、网络和磁盘阵列相互侦测,监视对方的运行状态;一旦发现对方的运行故障,便自动起用相应的服务程序,用来恢复网络的正常工作。 用户的数据存储在磁盘阵列系统上,两台计算机可以分别通过各自的scsi通道进行数据交换。 |
|||||||||||||||||