ccidnet????

出版日期:2004-05-17 总期号:1313 本年期号:34

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
东北专刊
西南专刊
成长型企业专用服务器诞生记
——联想万全T168的研发历程(之二)



  联想服务器研发工程师正在量测服务器的电信号


  第二部:

  部件开发——


  嗷嗷待哺

  如果把联想服务器新品T168的系统设计比作孕育一个新生命,那么随后进行的关键部件设计和开发则如同这个新生命的诞生和哺乳。T168在确保系统高可靠和高易用性方面最大的亮点就是,采用了硬盘热插拔和SATA RAID5技术,关键部件的开发也是围绕着这两个方面来进行的,涉及到的部件包括机箱、主板、热插拔硬盘背板和SATA RAID卡。


  机箱开发——

  充满创意的侧门


  首先我们谈谈机箱的开发。对一般用户来说,可能会忽略机箱而主要关注CPU、内存、主板和硬盘这些带“电”的部件,但是对于服务器的设计和开发来说,机箱设计是首当其冲的部件。道理很简单,所有的部件都“装”在机箱这个盒子里面,机箱的外观、内部结构、散热、刚度、共振频率、防电磁辐射能力、金属件、塑胶件,每一项都需要经过精心设计才能符合要求。

  在此,我们仅谈谈T168机箱为了实现热插拔硬盘而采取的结构调整。熟悉万全1系列的用户都知道,历史上的T100 服务器机箱都是全封闭的,只在正前面有个小门来挡住前面板和光/软驱。在此基础上要改进设计以支持热插拔功能。T168机箱是一个标准的ATX机箱,其外观和大小与以前的PC机相似,空间比2路机型万全T200和T350机箱小很多。系统设计时对硬盘的要求是能够实现6块硬盘的热插拔,在这样的机箱上如何安装上6块硬盘都是一个问题,何况还要实现热插拔,其难度可想而知。

  这个艰苦的机箱开发过程大概经历了方案制定——方案评审——图纸设计——样品评测——模具制作——小批量制作——小批量评测这7个阶段。当一款全新的机箱终于摆在大家面前的时候,所有的人评价就一个字“酷”!独特的侧门上再开小门的“门上门”设计就如同一扇天窗,通过这个天窗可以轻松实现硬盘热插拔。硬盘仓虽然从原来的4个扩充为6个,但内部的空间却并不显得局促,系统散热风扇扩充到了5个,内部数据线缆和电源线的布局和走线更加简洁,整个机箱内部显得干干净净。6个硬盘仓可以通过更换硬盘托架的方式同时支持热插拔硬盘和非热插拔硬盘。起初大家有点担心在机箱侧门上开了小门后会影响侧门和整个机箱的强度,但经过严格的测试后发现这一担心是完全多余的。

  机箱的开发成功意味着整个系统有了一个坚实的载体和骨架,接下来我们来说说整个系统中另外一个更加重要的载体,那就是主板的设计和开发。主板的英文是“Motherboard”,在台湾将其直译为“母板”,我觉得非常贴切,主板就像一个计算机系统的母亲。世上还有什么比母亲更重要的吗?答案只有一个,那就是母亲的母亲!主板在系统中是如此的举足轻重,对于系统设计来说主板设计可以说是最重要的一项工作,要想达到完全意义上的服务器系统设计,没有主板设计能力只能是空谈和作秀。联想万全系列服务器基本采用自主设计的主板,T168也不例外。负责T168主板设计的是联想板卡设计中心一位有多年服务器主板设计经验的工程师。为了配合Intel芯片组发布,项目经理要求这块主板必须一版成功,这个要求对这名老员工来说也是个不小的压力。为了配合该主板的设计,BIOS、信号、测试部门的经理都表示会全力配合该项目。

  详细学习了Intel提供的技术资料后,开始原理图设计,这个过程也比较快,然而这只是做了一个“毛坯”,最耗时也最费心的就是查图了。为了保证不出错,工程师把原理图前前后后一共检查了4遍,逐个信号地检查,经常一坐就是好几个小时,经过其他工程师和经理的仔细验证才放行。查图的仔细为后来主板设计的成功打下了坚实的基础。主板作为服务器系统中最重要的部件,其复杂性和设计开发的难度可想而知。第一版刚进行调试,便碰到了一件很棘手的事情。主板上电以后,CPU始终不工作。可是测量各个电压都正常,CLOCK波形也很好。这可是个大问题,CPU不工作就意味着后续的测试将没法进行。整个团队面临很大的压力,电源实验室的工程师也积极参与进来并提出了很多建设性的意见,经过反复地磋商和讨论,各种方案被提了出来,一次又一次地进行测试验证。终于,经过三天的“难产期”,这个难关被攻克了。主板的第一版设计成功并不意味着这块板子就可用了,还必须经过非常严格的主板测试来发现那些潜在的Bug,关于主板测试我们将在后续章节详细介绍。


  背板开发——

  不可能的任务


  最后我们再谈谈T168为实现热插拔而设计的SATA 热插拔背板的开发。为了实现热插拔功能,硬盘一般会采用热插拔硬盘模组和热插拔背板两种方式。前者多用在2路以上塔式服务器等机箱空间比较大的机型上,后者多用在对空间要求较高的RACK机型上。鉴于T168的机箱空间较小,而且还需要同时支持热插拔和非热插拔两种硬盘,因此设计者采用了热插拔背板的方式。T168上热插拔背板的设计需求是最大可以支持6块SATA硬盘,这几乎是不可能完成的任务,对于SATA这样点对点的硬盘连接方式,支持6块硬盘就意味着需要硬盘控制器有6个连接口。而T168南桥上集成的SATA和SATA RAID控制器只有2个接口,而外插的SATA RAID 5控制器也只有4个接口,无论采用哪种配置都使用不了6个接口,开发6口的背板岂不浪费?原来6口的背板是专为那些非常专业的用户设计的,T168巧妙地实现了这种专业的功能。T168最优的使用方法是把4块硬盘连接到外插的4口RAID卡上配置成一个带Hotspare功能的RAID 5阵列,在这个阵列上保存用户的数据应用,再用2块硬盘连接到主板集成的RAID 控制器上配置成RAID 1阵列,用来安装操作系统和其它非重要应用软件。这6块硬盘全部通过热插拔背板连接,这样两个RAID阵列都可以实现热插拔,既能保证系统的整体性能也  能确保数据安全。

  要设计6个连接口的任务是明确了,但完成起来就非常困难了。支持6个连接口就需要背板长度增加,同时背板内部的数据线长度也增加了,再加上和控制器端相连接的SATA数据线缆,长度很容易就超出了SATA规范所要求的100cm长度。对于高达150MB/s的高速数据传输来说,超过这个长度就可能导致数据传输错误和不稳定。这个问题在设计验证阶段的测试中就凸现出来了,70cm的数据线连接背板远端的接口后在大数据传输情况下出现了数据报错。发现这个Bug后,设计背板的工程师和设计线缆的工程师密切配合,首先把数据线缆缩短为50cm,然后再优化背板内部的走线方式,把最远端的接口的数据线也控制在了50cm以内。这样在任何一个接口上的硬盘和控制器之间的数据传输距离都小于规范要求的100cm,经过测试原来的Bug没有了,“不可能完成的任务”被巧妙地完成了!

  在部件开发中机箱,主板和热插拔背板都是新开发或者改动很大的新部件,而其它一些部件如300W服务器专用电源、SATA RAID 5、慧眼、导航软件等都是相对比较成熟的部件,都是仅做小的改动或者通过测试来验证其兼容性和稳定性,在此不再叙述。整个关键部件的开发奠定了T168的基础,就像一个新生儿的诞生和哺乳,最艰难也最重要,因为这时候随时可能夭折。接下来就是部件测试阶段,就像是一个孩子的成长,需要各种条件的配合,要经历各种不同的打击和考验。T168的这个部件测试阶段阶段也是一波三折,具体请看第三部:部件测试——健康成长。


  联想服务器背板开发项目组正在讨论技术问题