
| 出版日期:2004-07-05 总期号:1327 本年期号:48 |
|
冲进世界TOP10
曙光4000A的三个启示 文 本报记者 吴宁川 曙光4000A不日将奔赴上海超级计算中心,成为两大国家网格主结点中的一个。 6月29日下午,曙光4000A高性能计算机正式发布。在今年6月22日刚刚公布的全球高性能计算机TOP500排行榜中,曙光4000A以每秒11万亿次的峰值速度和80610亿次Linpack计算值位列全球第十。随着曙光4000A的推出,中国已经成为继美、日之后第三个跨越了10万亿次计算机研发、应用的国家。不日,曙光4000A将奔赴上海超级计算中心,成为两大国家网格主结点中的一个,其计算能力将覆盖到整个华东地区。 然而,中科院计算所所长、中科院院士李国杰,在谈及曙光4000A时,却在不断强调“不要片面攀比Linpack值,而要强调追求实际应用的效率”。 他说:“我有一个深刻的体会,就是大家经常关心的核心技术,不是少数精英在象牙塔里想出来的,而是通过应用成长出来的。我们并不缺懂CPU的精英,我们缺的是让自己的核心技术在使用中成长的机会。我认为曙光4000A诞生的意义,主要不在于造了一台大机器,而是它满足了以上海市为代表的国内用户对10万亿次机器实实在在的需求。” 启示一:盖房子要比质量而非高度 在今年6月进入世界高性能计算机TOP10的机器中,只有排在第十名的曙光4000A为中国制造,惠普产品占了2台,IBM产品占了3台,戴尔、富士通、加利福尼亚数字公司的产品各占1台,排在首位的仍是NEC的地球模拟器。 据李国杰介绍,目前中国已有14台超级计算机进入了世界TOP500。而国内性能超过6000亿次的超级计算机(服务器)约有20多台,这与意大利的18台和法国的16台不相上下。 然而,以Linpack值为依据的TOP500排名,并不能反映真实的情况。李国杰认为,TOP500根据Linpack测试结果排名,在许多应用中并不反映计算机的实际性能,机群系统在实际应用中的效率可能大大低于Linpack值。 国内不少服务器厂商追逐峰值速度,就像比赛建摩天大楼的高度一样,公众的目光也紧紧锁定下一个高点。 对此,曙光公司负责技术的副总裁聂华有一个精彩的比喻。他说,采用机群技术的高性能计算机能做到多高的峰值,这就好比盖楼,其实以现在的能力盖200层都没有问题,但问题是由谁来盖,盖给谁用。从建筑行业来说,原先大家竞争的焦点在楼的高度,但现在则更看重谁盖的楼更结实、花费更少的资金、盖楼的技术更好。换句话说,就是用户的应用决定了高性能计算机的发展。 目前,我国高端计算机已有较好的基础(研制生产水平高于欧洲各国),国产机群结构的高端计算机已有市场竞争力,比如曙光机群已销售1000多台。但我国高性能计算机的应用水平与国外至少相差10年,具体表现在:研究人员用微机做科研,研究生没用过超级计算机;企业几乎不用超级计算机做产品设计;大量数据资料未用计算机处理;金融证券部门几乎被国外公司垄断。 李国杰表示,目前我国高端计算机研制生产与国外差距不大,但应用是我国最薄弱的环节,国家中长期规划应把高性能计算机的战略性应用作为发展信息技术的主要任务之一。 启示三: 集群的玻璃天花板 曙光4000A采用集群技术,目前世界TOP500中采用集群技术的高性能计算机占了不少。有业内专家认为,集群计算机技术虽是夕阳技术,但却是朝阳产业。 对此,孙凝晖表示,集群技术好比一个玻璃天花板。现在的集群技术与几年前并无本质差别,只是更加精细、实用、廉价、可靠。因此,就像一个玻璃天花板,虽然好像有一个天空,但出不去。而为什么是朝阳产业?虽然碰到了天花板,但房子里面的空间很大,也就是市场足够大。 而集群技术的发展着重在三个方面。其一是降低价格,也就是通过技术水平降低价格。曙光公司的集群产品已经卖了1300套,这对国家的意义重大。李国杰院士曾表示,如果按照美国人的摩尔定律,不断地提高性能而价格不变的话,我们国家永远实现不了美国那样的信息化。我们现在高性能计算机的应用还是窄,因为用不起,从而导致没有更多的人开发应用软件。而没有更多的人开发应用软件,价格就降不下来。第二,也是最重要的,就是提高可靠性。集群其实有20年的历史,但期间集群的可靠性没有多大提高。第三,是应用的深入。在集群的玻璃天花板下面,已经有一大片领域可以覆盖很多种应用。而针对专有应用,特别是需要满足交叉应用的需求时,集群就满足不了。 降低价格、提高可靠性、深化应用,这是未来5年集群技术的发展方向。 李国杰在针对高性能计算发展发表意见时,表示863的投入重点不应是用PC服务器组装越来越大的集群系统,也不必追求TOP500的名次,而是要在体系结构和实现技术上创新突破,发展另辟蹊径的新技术。 启示二:前店后厂 科技部副部长马颂德在致辞中说:“曙光4000A是政府、科研单位和企业通力合作的成果,曙光机在科研成果的产业化上走出了一条有示范意义的道路。” 实际上,我国科研成果产业化道路一直存在着问题,863计划包括曙光高性能计算机的研制,都一直试图在找一条解决科研成果与市场相互转化的成功道路。 曙光公司总裁历军曾表示,曙光的成功模式就是前店后厂。 中科院计算机国家智能中心主任、曙光首席科学家孙凝晖在谈及此问题时,曾表示科研院所与企业的科研应各有分工。现在有相当多的人认为科研的主体应在企业,而非科研院所。但孙凝晖则认为,企业的作用更多在于技术创新。在具体的转化过程中,由科研院所来主导前瞻性的研究,同时企业也相应参与其中的工程部分,这也就是所谓的前店后厂的模式。在这方面,华为的模式很有借鉴意义。 而在曙光4000A的研制过程中,除了中科院计算所、曙光公司,更有上海超级计算中心作为用户代表的参与,使得产业化过程更为顺利。 孙凝晖举例说,改革开放20年来,我国汽车行业没有发展出自己的技术,虽然现在汽车已经成为我们国家的民族产业,但是没有人会造发动机。因此,正确地对科研活动和技术创新进行分工,科研单位、学校、企业和用户之间更好地分工,是高科技产业发展的道路所在。 这方面,曙光4000A进行了有益的探索。 链 接 曙光4000A的鉴定意见 经过认真讨论,鉴定委员会形成如下意见: 1. “曙光4000A超级服务器”(简称:曙光4000A),处理器总数为2560个,内存总容量为5TB,磁盘总容量为42TB,由四套不同的网络互连,峰值浮点运算速度为每秒11.2万亿次,Linpack值为每秒8.06万亿次。系统软件包括:机群操作系统、机群文件系统、并行编程环境、网格零件等。 2. 该系统实现了主板设计等核心级技术的突破和工业标准机群的技术增值,攻克了一系列大规模机群计算的关键技术,开发了网格零件。其中具有自主知识产权的创新技术涉及:高速互连网络及其通信协议,高可用的机群文件系统,机群操作系统核心,高密度64位服务器主板和系统设计,大规模机群的集成式管理网络,支持多种计算模式的操作系统动态部署和轻核心技术,提高系统生产率的多调度策略作业管理、智能文件浏览器和自治管理技术。 3.该系统采用AMD 64位Opteron处理器,与32位x86系列兼容,应用软件丰富。该系统运行高分辨率天气预报软件,可预报北京地区1公里尺度36小时天气。上海超级计算中心已在该系统上运行汽车设计等6种重要的商用应用软件,获得很好的应用性能。 4.曙光4000A在2004年6月世界高性能计算机TOP500排名中位列第十,提高了国产服务器的技术含量和国际影响,为推动我国高性能计算机产业的发展,发挥了重要作用。该系统产生的技术已应用于曙光公司64位服务器产品中。在性能价格比和性能功耗比方面均优于国际同类系统水平。 鉴定委员会一致认为:“曙光4000A”在支持网格环境下的多种商业应用,追求性能价格比和性能功耗比,和高性能计算机的可持续发展上进行了成功探索,总体上处于当前国际先进技术水平。在高组装密度的服务器模块设计、大规模机群的管理技术、网格路由器技术等方面达到国际领先水平。 |
|||||||||||||||||||||||||