ccidnet????

出版日期:2004-08-02 总期号:1335 本年期号:56

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
东北专刊
基于IBM eServer BladeCenter刀片集群的
高性能计算解决方案



  摘要



  众所周知,IBM长期以来在高性能运算方面投入了大量的精力,并取得了很好的成绩。在高性能运算TOP 500名中,IBM公司占有很大的份额。IBM的大规模并行处理机SP系统已广泛地运用在各个领域,该机(深蓝)曾在1997年中的“人机大战”中,因战胜棋王卡斯帕罗夫而享誉全球。作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优势,并且将SP上的优秀的系统管理软件和并行处理方面的程序移植到Linux 集群系统上。正是利用自己在集群UNIX计算机领域的广泛经验,IBM开发了IBM Linux集群系统,旨在帮助客户应对面临的挑战。

  高性能运算解决方案

  IBM eServer Cluster 1350的组成,在Linux系统下,可以选择传统的1U机架式服务器,也可以选择IBM刀片服务器。现在,IBM正在将运算技术中两个最流行的概念——Linux群集和刀片服务器——融合到一个标准的系统之中,用于企业和研究机构。Cluster 1350将是多种系统的集合,包括IBM BladeCenter系统、eServer x335以及eServer x345系统。IBM将在工厂对群集进行测试和集成之后,再运输到客户现场,这些系统将更容易安装和管理。

  IBM Linux 集群采用了先进的技术,IBM Service Process是固化在主板上的专用服务处理芯片,在相应软件的配合下(如CSM,xCAT等系统管理软件),监视每台服务器的硬件运行状况,系统管理员能够根据其提供的信息,快速作出反应,帮助及时发现和解决问题。可以采集到CPU、内存、硬盘、电源、风扇和稳压模块等硬件的信息,实时发出预警信息,实现预故障分析;能够远程控制节点的部分硬件。此外,使内存的校验位增长到4位,从而大大提高了可靠性。

  由IBM专业技术人员开发的用于IBM xSeries服务器上的Linux集群系统管理软件,供用户使用,其功能主要有现如下几点:系统并行安装和配置;通过命令实现对节点的远程开机、关机和重新启动等操作;监视和控制硬件状态,尤其是提供预故障的分析,对硬件的监视可以到CPU、内存、硬盘、稳压模块、风扇和电源等具体配件。

  总体而言,IBM有很强的技术实力,依靠整体的系统解决方案保证系统的可用性和可靠性,将Linux集群推广应用到实际生产处理的系统中。

  系统的稳定性和可靠性

  IBM的x系列服务器中采用了如下先进技术来最大限度地保证系统的稳定性和可靠性:

  ● 软件恢复(Software Rejuvenation)

  ● Chipkill内存

  ● 预测性故障分析(PFA): 处理器、VRM、内存、硬盘、电源和风扇

  ● 系统管理处理器(Service Processor)

  ● 容量管理

  ● 热插拔电源

  ● 热插拔风扇

  其次,在系统的维护和修复方面,IBM还提供如下的技术。

  缩短宕机时间,以保证系统最大限度的使用率:

  ● 实时诊断

  ● 电源恢复

  ● 服务器自动重启动

  ● 远程管理适配器

  另外,IBM先进的管理工具还为集群系统的高可用性和高可靠性提供了有效的保证。

  集群系统管理的优势

  IBM提供的集群系统管理软件xCAT,是一个高级的集群管理软件,允许通过一个单点控制和管理一个Linux集群系统。它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。

  同时,提供预警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查出问题所在,及时解决问题。

  在方案中计算节点一共配置了252个,使用了18个BladeCenter刀片服务器机箱,每个机箱内可以放置14个刀片服务器。每个刀片服务器内配置2个3.0GHz/533MHz的 Intel至强 CPU和2GB内存。每个刀片服务器机箱配置1个4口千兆交换模块,采用4个千兆口与Cisco 4506进行连接,每个刀片中心配置冗余电源,采用爆炸式冷却系统。为了减少噪音,在每个刀片服务器机箱配置了一个消音模块。

  采用8个I/O节点,每个I/O节点使用IBM eServer x335 1U服务器来承担。每个计算节点配置一个2GB的HBA卡与光交换机相连接入SAN网络,另外,每个计算节点通过百兆以太网卡接入管理网络。

  管理节点主要是负责整套刀片集群系统的安装、维护、诊断、作业的调度、资源分配管理等,还负责绘图数据的链路,因此采用IBM eServer x345 2U节点来完成。为了使用远程监控功能,还配置了遥控器监控接口。x345上有两个10/100/1000Mbase-TX接口,一个连接到计算网段,一个连接到管理网段。此外,还配置一个1000Mbase-SX光纤接口用于实现与用户网段的Cisco 2950连接,实现与用户终端通讯。

  成功案例

  中国新疆油田公司研究院地球物理研究所2003年引入了IBM刀片式服务器作为计算节点,共226个节点,每个节点上都有两个CPU,共500多个CPU;1U高的x335作为存储节点,2U高的x345作为管理节点。该平台主要用于石油勘探地震资料处理的高性能计算。

  在此之前,三维处理能力为4000平方公里。而升级以后,三维处理能力将会提高到6000到7000平方公里,同时在处理准确性上也会有更大改进。

  研究所副总工程师贾亚军先生介绍说:“此次项目竞标非常激烈,我们收到包括IBM在内等多家服务器厂商的群集方案。对新疆地区来说,我们选择IBM的BladeCenter刀片服务器方案的主要考虑因素是:在计算能力方面,IBM eServer BladeCenter刀片服务器节点密度高,单机柜CPU容量高出安装1U服务器机柜的一倍;从散热技术来讲,适用于我所机房运行环境;此外,从机房管理、耗电等方面的考虑,刀片式服务器将更适合地球物理应用。此次我们引进了200多个节点;根据目前的发展速度,三至五年内我们会发展到500甚至1000个节点,刀片服务器机柜的占地将会比1U服务器机柜省去很大空间。”


  IBM高性能计算解决方案架构图(刀片服务器)

  

  IBM刀片服务器的优势