ccidnet????

出版日期:2002-12-23 总期号:1179 本年期号:96

本期导读
要闻综合
中国信息化
网络与通信
产品与应用
渠道与市场
渠道黄页
经销商的选择
东北专刊
华东专刊
华南专刊
西北专刊
西南专刊
性能高低RAS见分晓
宝德服务器高可靠、可用性方案设计
戴琳

  服务器的可靠性、可用性、可维护性日益成为用户关注的焦点。深圳宝德科技在高可靠、高可用产品的设计上同时从硬件及软件两个方面进行考量、优化,采用RAS标准实现了真正高可用的服务器产品。

  随着企业及政府部门信息化水平的不断提高,用户对作为网络核心处理设备的服务器的要求也越来越高,其可靠性、可用性、可维护性自然也就成为关注焦点,影响着用户的购买倾向。深圳宝德科技在高可靠、高可用产品的设计上具有非常全面及深入的理解,同时从硬件及软件两个方面进行考量、优化,为用户提供真正高可用的服务器产品。

  宝德科技倡导服务器RAS标准。其中R(Reliability)表示高可靠性;A(Availability)表示高可用性;S(Serviceability)表示可维护性。一般用MTBF指标(平均无故障时间)来衡量服务器的高可靠性,MTBF值越大表示系统的可靠性越高;用几个9来衡量服务器的高可用性,如99.999%。下面就让我们来了解一下宝德服务器RAS的具体实现。


  高可靠性设计实现



  从这个公式中,可以看出整个系统的可靠性取决于系统各个部件的故障率。部件的故障率越低级,系统的可靠性就越高。宝德科技在设计产品时在部件的选择上可谓高标准、严要求。所有核心部件均由美国英特尔公司原装提供(如服务器主板、处理器、阵列卡等),其余部件也必需经过英特尔实验室及宝德来料检测中心的严格认证,以此来保证整个系统硬件的高可靠性。当然,这还远远不够。因为相对于主板、CPU等精密电子部件,硬盘、电源、风扇的故障率要高得多。很显然提高这几个部件的可靠性对提高整个系统的可靠性有非常重要的意义。下面我们就来看一下,宝德科技如何提高这些部件的可靠性:

  一、硬盘子系统的高可靠性实现

  我们知道,服务器专用的SCSI硬盘在存取数据一般是以10000转,甚至15000转高速旋转,同时由于这种高速转动会倒至硬盘温度快速上升。可以想像,对于一个越是业务繁忙的系统,硬盘的潜在故障率也就越高。作为储存数据的媒体,硬盘的这种潜在故障威胁着系统数据的安全。为此,宝德科技的解决方案是在所有机型上均对硬盘实现RAID保护,同时,RAID级别可选RAID0、RAID1、RAID5、RAID 10等多种模式,满足用户的各种不同要求。这样系统就算出现一个甚至多个硬盘故障也不会倒至数据丢失,而且只要根据报警指示灯,将故障硬盘在线更换(无需关机),RAID集就会自动重构。以此保护系统数据的完整性,保证系统服务不会中断。


  二、电源子系统高可靠性实现

  电源作为整个系统的动力能源,它的可靠性关乎整个系统的正常运行。因此,电源的选择也是至关重要的。考虑到国内大部分地区的交流电状况都不太理想,宝德服务器均采用具有PFC(功率因素校正)功能的高品质电源,以保证电源子系统源源不断地给整个系统提供干净清洁的能源。当然,这还不够。因为电源子系统7x24地工作在高电压、大电流下,它的故障率也相对要高此。为此,宝德科技在服务器电源子系统的设计上采用了1+1、2+1等热插拔冗余模式。这样,就算一个电源出现故障,系统仍可正常运行,而且故障的电源可以快速在线被更换,无需当机。

  三、风扇子系统的高可靠性实现

  高可靠的散热系统设计对一台高可靠的服务器绝对是不可或缺的,服务器散热系统是否永远保持可靠有效运转对整个系统的稳定运行起着决定性的作用。实践经验表明,许多系统故障都直接或间接与系统散热有关。宝德服务器除了采用具有国际品质的风扇部件,系统设计时还采用了N+1、N+N冗余工作模式。举个例子来说明N+N冗余设计的好处,比如我们的PL4900r共有4个大功率中央散热风扇,设计为2+2冗余热插拔工作方式。也就是说只要有2个风扇正常工作就已经可以满足整个系统的充分散热要求。这样用户就不用担心服务器的风扇故障会影响系统的充分散热,最终导至系统出现各种不可预测的故障。

  综上所述,宝德科技通过对服务器硬盘、电源、风扇等子系统的特殊考量及冗余设计,使得整个系统各个部件之间变得更加平衡,最终为用户提供真正高可靠的服务器系统,也就是达到宝德服务器RAS标准中的R。


  高可用性设计实现



  很显然,系统的可用性取决于MTBF(平均无故障时间)及MTTR(平均修复故障时间)。MTBF值越大,MTTR值越小,整个系统的可用性就越高。前面我们已经谈过宝德服务器在提高整个系统MTBF值,也就是提高系统可靠性时所采取的一些解决方案,下面我们再来了解一下宝德服务器是如何来降低MTTR(平均修复故障时间)的。


  1.主要部件热插拔设计

  宝德服务器的主要部件均支持热插拔技术,如热插拔硬盘、热插拔风扇、热插拔电源、热插拔PCI等。这样,在维护时就能以最快的速度实现在线更换,而不需要关闭系统,从而将宕机时间降低至最少。

  2.集成的高级服务器管理功能

  宝德服务器集成管理处理器BMC,它总是7×24小时不间断地监控着系统的主要部件及关键系统参数。当出现问题征兆时,它会第一时间通过各种不同方式通知系统管理员(如网络报警、Email报警、PIC实时监控等)。当系统故障时,可通过Modem远程重启机器等。


  总结


  ◎内存ECC及Chipkill技术

  宝德服务器均采用具有ECC(错误代码校正)功能的内存条,加上主板所具有Chipkill技术,可以纠正及探测内存中的数据错误。

  ◎网络负载均衡及容错

  通过2个或2个以上的服务器专用网卡做负载均衡或捆绑,来实现网络接口的高可用性及实现更大的网络数据吞吐。

  ◎硬盘RAID系统

  通过硬盘RAID系统,保证系统数据的真正安全及7*24小时高可用。就算在出现硬盘故障的情况下,系统数据也不会丢失,系统服务不会中断。保证数据随时可访问。

  ◎多种冗余设计

  系统关键部件,如硬盘子系统、风扇子系统、电源子系统、网络子系统等的冗余设计来实现整个系统硬件的高可靠。

  ◎总线及I/O技术

  系统提供多条对等独立64位PCI总线,为各种需要强大I/O能力的应用提供足够的PCI总线带宽。

  ◎高级宝德服务器管理技术

  对系统关键部件及参数实时监控,可通过多种方式进行管理(如网口、串口、远程Modem等),可远程重启机器、开/关机等。

  ◎宝德服务器导航软件

  提供友好界面,帮助用户完成各种驱动盘的制作。提供相关信息及文档,供用户熟悉如何正确使用宝德服务器。