ccidnet????

出版日期:2002-11-04 总期号:1165 本年期号:82

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
保持系统正常的九剂“猛药”
曙光高可用性方案设计


  高可用性服务器系统将是市场竞争热点。曙光公司作为国内高中低端全线服务器厂商,在高可用性方案设计上,充分地考虑到了服务器系统的软硬件综合设计,同时,将高端高可用性技术下移到低端产品上。透视曙光公司的九大高可用技术,也让我们认识到了曙光公司对高可用性设计的全面和深入。

  为了搞清楚如何保证千差万别的服务器可用性,即曙光倡导的SUMA标准中的S,我们先来看一看由哪些因素决定服务器可用性的高低。

  服务器系统的可用性指标可以用两个参数进行简单的描述,一个是平均无故障工作时间(MTBF),另一个是平均修复时间(MTBR)。系统的可用性可用下式表示:


  也就是说,如果系统的可用性达到99.9%,则每年的停止服务时间将达8.8小时,而当系统的可用性达到99.99%时,年停止服务时间是53分钟,当可用性达到99.999%时,每年的停止服务时间只有5分钟。

  通过调查发现,造成系统停止服务的主要原因有三个:其一,硬件故障,在整个停机原因中占30%;其二,操作系统和应用软件故障,占整个停机原因的35%;其三,操作失误、程序错误和环境故障,占整个停机原因的35%。


  要从硬软两方面入手


  可以看到,要提高系统的可用性,必须从硬件和软件两个方面入手。对于硬件产品而言,其故障发生的概率与其投入运行的时间成正比,运行的时间越长则出现故障的概率越大,提高硬件系统的可用性必须要在故障出现时能够保证系统继续服务。硬件冗余技术可以很好的解决这一问题。而对于软件系统而言,故障的产生难以进行有效的预测,于是如何减少软件恢复的时间是提高系统可用性的一个重要课题。通过快速地恢复软件系统,降低平均修复时间(MTBR)也可以达到提高可用性的目的。


  系统停机故障原因

  服务器系统是一个由高速电子电路和精密机械组成的复杂系统,电子部件和机械部件之间存在着可靠性的差异。电子电路的可靠性根据其工作状态不同也存在一定的差异。通常工作在高压大电流情况下的部件可靠性较低,而工作在低压小电流状态的部件可靠性较高;工作温度较高的部件可靠性低,工作温度较低的部件可靠性高。例如服务器电源是工作在高压大电流开关状态下的部件,其可靠性远低于工作在低压小电流状态下的其它板卡。CPU工作时发热量较大,系统不得不专门为它配置风扇,当风扇出现故障以后,在相当短的时间内CPU就会出现错误,可以认为系统中CPU的可靠性依赖于为其提供冷却的风扇的可靠性。机械部件存在着磨损,它们的平均无故障工作时间大大低于电子部件,例如目前广泛使用的服务器硬盘,通常以每分钟10000转的速度高速旋转而且硬盘自身的温升较大,自然其出现故障的概率也较大。


  软件的可用性设计

  通过分析可以看到,提高MTBF值和降低MTBR值对系统可用性设计具有相同的意义。


  围绕服务处理器设计


  系统硬件的可用性,在很大程度上取决于那些MTBF值较低而能对系统正常运行造成重大影响的部件,如硬盘,风扇,电源等。在系统设计中对关键部件进行冗余设计,可以大大提高系统的可用性。冗余技术的基础是合理有效地对系统运行状态进行监控,在及时发现故障的前提下启动冗余部件。于是,服务处理器(SERVICE PROCESSOR)开始被普遍应用在中高端服务器上,例如IBM RS6000中的高端产品内部都有一个服务处理器,我国自行研制的曙光3000超级计算机内部安装了数十个用于监控管理系统硬件的服务处理器。


  机箱的可用性设计

  服务处理器的概念由来已久,在20世纪80年代的一些超级计算机上就开始采用这项技术。由于当时的硬件多由中小规模电路组成,功耗较大,可靠性水平较低,系统的故障多数是由空调、风扇等机械设备引起。于是负责管理系统硬件设备的专用处理器应运而生,依靠服务处理器监控主机的空调系统、电源系统,后来直至发展到管理系统的运行状况和进行一些必要的性能分析。服务处理器的出现,使大型主机的可用性大为提高,但要说明的一点是,服务处理器对于可用性的贡献仅仅停留在缩短平均修复时间上,可以做到故障的早期预警或自动启动冗余部件。可见缩短平均修复时间是十分重要的。经过不断的发展,今天的大型服务器系统都无一例外地装有服务处理器,成为大型服务器高可用性的一个标志。

  但目前应用十分普及的PC服务器中,在一些低端产品上这种技术尚未普遍采用。曙光公司认为低端服务器就其完成的服务任务而言和大型主机的重要性是相同的,服务器的可用性对于低端产品同样具有重要意义。

  曙光公司已经将曙光3000超级计算机中的服务处理器技术应用到了万元级的PC服务器当中,让普通的服务器用户也能体会到超级计算机的先进技术。在曙光天阔系列产品中,几乎所有的型号都配置了自主设计的“服务处理器”模块,使得低端产品可以在可用性方面得到大幅度提升。

  低端服务器的竞争也不能简单地局限在价格范围内,更重要的是要根据低端用户的应用环境和应用能力,来满足其实际需求。可用性是服务器应用的重要特点,系统的可用性也是服务器厂商不断追求的目标。


  曙光九大可用性技术


  多重冗余技术

  包括磁盘系统冗余、电源系统冗余、网络系统冗余、冷却系统冗余等。

  通过对以上关键部件的冗余设计,可以保证系统硬件具有很高的可用性,对于关键应用场合,可以采用双机热备份的高可用(HA-High Availability)系统,使系统可用性达到99.99%。

  系统冗余—双机热备技术(HA)

  正常工作时,两台服务器同时工作,通过以太网、串口或SCSI互相进行侦测,并不断地完成同步操作,应用数据保存在共享磁盘阵列中,当任何一台服务器出现故障,另一台服务器迅速接管服务。应用切换时间根据服务的类型和需求从3秒至1~2分钟不等。

  操作系统和应用软件备份

  支持操作系统和应用软件的备份和系统自动恢复功能:当系统发生软件故障时,系统管理员通过类似方法可以短时间内使系统恢复到备份时的状态(包括系统配置,用户信息,应用软件),免去了重装系统、重新配置的烦恼,减少了宕机时间和由此造成的损失。

  智能硬件监控管理技术

  曙光最新设计的硬件监控和管理系统,可独立检测系统的硬件故障,分别采集资源使用率、温度、电压和风扇转速等数据,自动记录主机故障、机箱非法开启等日志信息,通过前面板带背光的液晶显示屏(LCD),及时向管理员做出提示和自动报警,大大提高了系统可靠性和可管理性。这项管理技术移植于大规模计算机。

  人性化机箱设计

  无论是塔式机箱,还是机架式机箱,曙光都进行了精心的优化设计。从硬件兼容性、通风散热、防电磁干扰、升级维护和扩展等多方面充分考虑用户的需求。

  机箱外部有LCD监控显示窗,管理员仅需两三个按钮即可了解各种设备运行状态。机箱保护门采用270°转角,避免了通常的180°开门带来的不便,而且门的背板有磁铁可使门吸附于机箱侧面,给用户带来了极大的方便。

  智能I/O技术

  天阔服务器部门级以上产品均集成Ultra 160 SCSI控制器(单通道或双通道),峰值传输速率最高达160MB/s,可支持几乎所有类型的SCSI设备。

  曙光将当前业界最先进的I/O技术整合,融入天阔服务器产品中,极大地提高了服务器产品的整体性能。

  网络支持技术

  天阔服务器至少提供一个10 Mbit/100Mbit带宽自适应以太网口。

  系统支持网络唤醒功能WOL和Modem唤醒功能WOM。支持32位和64位千兆以太网卡。支持多网卡自动冗余。

  支持Myrinet,高达2+2Gb/s(全双工)传输速率的高速网络设备,用于高性能cluster和科学计算等领域

  容错技术

  曙光容错技术主要采用RAID磁盘系统,此外还利用ECC Cache和ECC内存技术。曙光天阔服务器采用ECC内存标准,其高可用性采用了高级ECC内存标准,从而提供了避免发生内存错误的保护,为应用,文件/打印服务器提供了一个更安全的平台。

  用户导航系统

  为用户操作和管理服务器提供了极大的方便,使服务器易用性大大增强。曙光用户导航系统界面友好,内容丰富。