ccidnet????

出版日期:2004-04-12 总期号:1304 本年期号:25

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
东北专刊
空间、供电、散热和管理
刀片的四个罩门
胡飞亦

  现在看来,下一代刀片产品的设计师需要在一个固定大小的刀片上塞进更多的组件,散热工程师则要设计更有效的散热片和使用新的材料,而用户也必须花更多时间去注意刀片在安装到平台上使用时,供电系统和系统散热方面会不会有问题。种种挑战似乎难以克服,不过值得乐观的是,我们在一年前看现在似乎也是一样的状况,我们在面对IT产业的挑战时,总能找出创新的方法去克服这些困难。当然,除了上述问题,如何对高密度部署的刀片系统进行有效的管理,也是限制刀片发展的一个潜在障碍。虽然目前IBM、HP、Sun、RLX Technologies等厂商都有各具特色的管理工具,但看起来还称不上完善,不过好消息是,去年12月17日成立的DMTF Server Management Working Group宣布将在今年7月1日前推出第一个关于服务器管理接口的规范,或许这将成为一个服务器管理上的里程碑。

  众所周知,一块1.7GHz的P4-M处理器需要30W左右的功率,在第一代采用cPCI 1.0规范的刀片系统这并没成为问题,但是当设计者开始将目标放在功率为90W左右的3.06GHz Xeon处理器上时,系统散热和空间限制上的挑战就日益严峻。实际上,如何更有效地利用机箱空间(或减小板卡的尺寸)、提供更大功率并降低功耗、解决系统散热和提高服务器管理效率,是所有服务器系统厂商所面临的问题,只是这些问题在刀片系统上更加凸现。


  空间限制


  虽然刀片系统所采用的主要几种CPU和周边装置(如Chipset)在过去几年中维持了一个比较固定的大小,但是内存所占用的空间却在迅速增加,尤其是采用Opteron芯片制造的刀片系统,必将拿出大量空间来放置内存插槽。而DRAM成本的降低和处理器内存寻址能力的增加,也使得用户对内存的需求急剧上升。

  目前,大多数刀片系统厂商在单个刀片上都能提供1GB~2GB的标配内存,然后根据系统架构和芯片数量的不同来支持不同的最大内存,例如IBM的BladeCenter HS40每片最大支持16GB内存,HP的Proliant BL40p则最大支持12GB内存。在狭小的空间内实现如此大的内存支持,一般是通过直接集成在刀片上的DRAM,再加上插在SO-DIMM扩充槽上的内存来实现的。

  而随着芯片内存寻址能力的进一步加强和用户的更高要求,在设计下一代刀片的时候,设计者必须要找到在一块刀片上放入38个或更多的DRAM的方法,而且还要提供满足用户需求的各种周边装置,单条1GB和2GB容量的内存将是刀片系统的默认配置,也许可以通过把更大容量的内存直接集成到刀片上来实现。但是,缩小刀片板载插槽、集成电路和其他装置的尺寸的问题则会始终存在。


  系统供电


  刀片服务器作为cPCI系统的一种,通过J1/J2的连接器来获得系统供电。而一个典型的cPCI 3.0系统上有8个3.3V、6个5V、1个+12V和1个-12V的电源针脚,这些针脚供应在IEC61076-4-101标准所定义环境下的70℃ 1A电流。

  不过这个定义有些模糊,每个针脚1A的限制会让人误以为,所有的针脚可以在系统温度不超过70℃的状况下去接1A的电流,而在现实状况中并不是所有连接器中的针脚都可以负载到最大的电流量,事实上大部分的cPCI针脚都是负载在以mA为单位的电流范围中。我们知道,计算机系统所产生的电热可以看作一个与电压和电流相关的函数曲线,电压和电流的增加会使连接器针脚的温度上升。假设J1/J2连接器中的所有针脚都有电流负载,每个针脚的最大电流是在IEC61076-4-101标准所定义环境下40℃ 2.5A的情况下,这个cPCI系统可获得的功率大小如表1所示。

  表1显示出,设计者最多只能从J1/J2连接器中获得201W的电能。也就是说,设计者必须注意对刀片系统上的设备总功率进行严格限制,需要控制供应电压,不要超过整个刀片可以获得的功率上限。但201W的功率显然是不够的,刀片系统如何获得更多的功率已经成为一个问题。


  系统散热


  在提高刀片系统供电功率的同时,另外一个问题也出现在设计者面前,那就是如何解决系统散热问题。也许单个刀片200W的功率看上去并不起眼,但是一个可以容纳14个200W刀片的6U高的Chassis功率就达到2800瓦,一个19英寸的机架里如果真有7台这样的Chassis,其总功率就接近2万W,这是一个惊人的数字。同时,高功率也带来了散热的问题,所以可以知道,在散热问题没有解决的情况下,目前的刀片服务器几乎是不可能满插在一个机架上的。

  风冷散热是刀片系统目前惟一的解决方式,似乎将来也是,除非未来有厂商在刀片系统上使用昂贵的液冷系统或是碳纳米管散热技术。通常认为,通过增加散热片上的空气对流或加大散热片尺寸就足以解决散热的问题。

  但实际上,用加强空气对流和加大散热片尺寸的散热方式都会受到限制,因为大部分cPCI系统都有的PMC(PCI Mezzanine Card)区域和内存模块决定了散热片尺寸不可能任意增加;同时,处理器所产生的热量往往集中在一个小区域内,增加散热片的尺寸并不能等比例地达到强化散热的效果;另外一个因素是散热片本身的散热能力受到热阻(Thermal Resistance)效应的影响,热阻的单位是℃/W,所谓热阻效应是指当要被发散的热量上升时,那么周边的温度一定会上升。举例来说,一颗处理器产生了40W的热量要被发散,散热片的热阻如果是0.5℃/W,那么处理器的温度就会比其周边高出20度。

  图1提供了一般的热阻、散热片大小与风速的对应关系,请注意到图形中的X轴与Y轴是以对数的方式呈现。从图1可以看出,散热片的散热能力并不和风速成线性函数,在热阻上一个非常显著的改善,会在稍呈对流状态的空气于每分钟500英尺的风速情况下显现出来,但是从每分钟500英尺增加到每分钟1000英尺的风速时,热阻的改善就没那么明显了。

  提高风速的方法来散热的还有一个限制用因素是噪音,当吹过卡板与散热片的风速增加时,所产生的噪音也会增加。从目前实际情况来看,大部分服务器专用风扇能够提供300ft/Min的风速。

  如前面提到的,散热片通常会被内存以及PMC的空间给限制住尺寸,一个cPCI系统若含有两个PMC的设计,通常会有一个大小约为9.45inch3(3 inch× 4.5 inch×0.7 inch)的处理器散热片,这样通常在300ft/Min的风速下有0.62℃/W的热阻,大部分的处理器在最忙的情况下会到70℃,它周边的最高温度很容易就达到50℃,按照这些条件计算,当遇到限制时,一颗微处理器所能产生出来的热量可通过下列的公式计算而得:功率=(最高温度-周边温度)/热阻,我们得到的结果是32W。

  而32W的功率只够1颗P4-M 1.7GHz处理器正常工作,所以要提高系统中处理器的主频则必须增加散热片的尺寸,或降低最大操作温度,或增大风速,或者是这些方法中的任意组合。目前刀片可以支持的最高主频芯片是Xeon MP 3.06GHz。这在散热系统设计上已经是非常了不起的突破,而未来的设计师则需要突破3.2GHz、3.6GHz,甚至是更高的主频。

  实际上,下一代刀片系统由于将具备更加多样丰富的功能与规格,难以在增加散热片大小上做文章,多出来的热量将通过增加风速和降低最大操作温度来实现。只是还要注意两个问题,一是热阻的大小将会随散热片附着方式的不同而有所变化;另外一点是,处理器所产生的热量通常会集中在散热片中间,并不会均匀地分布,降低了散热片的散热效能,因此热模拟在确认散热方案时是非常重要的。


  刀片管理


  有观点认为,管理刀片服务器与管理传统的服务器没有太大的差别。企业用户需要监控可用性以及性能,并需要在潜在的硬件故障导致停机之前把它们找出来。这个观点并不错,但是我们应该看到,刀片服务器的管理是有其特殊性的,能够快速安装和更换的刀片系统要求管理软件协助用户快速地发现新刀片服务器,识别合适的配置,并为刀片服务器分配各种必要的资源和镜像,甚至自动安装操作系统,这与花费较长时间的传统服务器部署是不一样的。

  当前,刀片服务器管理软件基本可以分为变更和配置管理、镜像恢复和管理、快速部署、基于策略的管理这四种,虽然每个厂商都宣称自己的管理方式很好,但实际上,除了配置过程的部分自动化,如何对不同厂商的刀片服务器以及传统的机架式和塔式服务器进行统一管理是一个实实在在的问题。

  实际上,管理问题不仅在刀片服务器领域存在,如何有效地部署和管理异构硬件平台,是所有服务器系统厂商和网络设备厂商都关心的问题。但调查显示,对于如何管理刀片服务器,几大主要系统厂商的想法均不相同,而各自的管理软件也是沿用各自专用的IA服务器管理平台,如IBM的Director 4.1、HP的Insight Manager 7和RLX Technologies的Control Tower 4等。虽然Veritas、Computer Associates、BMC Software、BladeLogic、Opsware、CenterRun和ThinkDynamics等第三方软件厂商也开发了一些专门的工具软件来管理刀片服务器,但问题在于,这些软件的开发标准和接口是各不相同的。从管理的角度看,如今的IDC问题不少,能够真正把异构硬件平台进行统一管理的工具将大为受宠。或许,基于Web方式的跨平台管理软件最具这方面的市场潜力。 (E7)


  PICMG3.0电源接头


  表1 cPCI系统电源供应状况表


  图1 热阻、散热片大小与风速的对应关系