
| 出版日期:2003-09-15 总期号:1250 本年期号:69 |
|
揭密下一代超级计算芯片
过去十年间,微处理器的性能一直在以每年50%左右的速度提高。然而在传统架构下,微处理器性能在未来的提升面临技术上的瓶颈,并有可能很快降低到每年12.5%左右的发展速度。这时,一种名为TRIPS的微处理器架构正在紧锣密鼓地开发当中,本期特写针对这一重大的技术趋势给予了详尽的报道。此外,本报通过种种努力最终与远在美国的TRIPS架构首席设计师德克萨斯大学道格·伯格取得了联系,伯格教授就本报提出的问题给予了热情的回答。 微处理器的发展迎来一个新的里程碑,一种不同于以往的RISC和EPIC的崭新架构“TRIPS”正在积极地开发之中。 日前,在美国国防部高级研究计划局1100万美元的经费支持以及IBM公司奥斯汀研发中心的协助下,美国德克萨斯大学的一个计算机开发项目组正在开发一种崭新架构的处理器原型,这是一种可进行指令级并行运算、适应性强、基于网格结构的处理器原型。 这种处理器原型基于德克萨斯大学目前正在研发的TRIPS架构(Tera-op Reliable Intelligently Adaptive Processing System),即万亿次高可靠智能适应性处理系统。德克萨斯大学计划在2005年年底前推出可运行的处理器原型。届时,这一原型将包括四个TRIPS处理器内核,每个处理器内核包含16个执行单元,这些执行单元分布在4×4的网格结构中。 这种架构使得微处理器性能有很大的提升空间,几年后,当32纳米微处理器制造工艺得以应用时,这种芯片中将可以加入数十个处理单元,每秒钟可以进行1万亿次运算。也就是说,用一个TRIPS架构的微处理器就可以实现目前一些超级计算机才能达到的计算水平。 原有架构后继乏力 在过去的十年里,微处理器的整体性能每年大约以50%~60%的速度增长。这样大幅度的增长主要来自于两个方面:一是,设计者们在不断快速地提高微处理器的时钟频率,这通过扩展技术和减少每次循环中的逻辑层来实现;二是,设计者们大幅提高了每个周期执行指令的数量(IPC),这通过在一个芯片上集成越来越多的晶体管和提高编译器技术实现。无论设计者们普遍重视时钟频率还是IPC,这两个方面都取得了很大的进步。专家指出,一部分设计者们选择快速提高时钟频率,如原Compaq的Alpha系统;而另一部分设计者着重对IPC进行了改善,如HP的PA-RISC系统。两者在过去十年间对微处理器性能的提高起到了很大作用。 然而,由于微处理器的内部某些技术的局限性,使得未来性能再提高很难。不久,设计者们将无法实现微处理器性能一直保持的每年50%的增长速度。我们甚至将会发现,其时钟频率的提高有可能很快降低到每年12%~17%的增长速度,并且,即便成倍地提高IPC来补偿时钟频率增长的放缓也是很困难的。此外,微处理器芯片内部信号传输的延迟还会限制传统的微架构提高IPC的能力。
TRIPS架构的内部构造示意图 因此,德克萨斯大学的微处理器专家们试图解决这一难题,通过对芯片进行结构上的全新设计,打破微处理器发展瓶颈。于是,TRIPS架构应运而生。 TRIPS架构应运而生 TRIPS架构是德克萨斯大学的道格·伯格教授和史蒂夫·克克勒教授创造性思维的杰作。五年前,这两人加盟德州大学奥斯汀分校,在对微处理器的研究过程中,他们发现传统体系结构微处理器内部引线路的不断增加将会越来越限制处理器的运行能力。 于是,道格·伯格和史蒂夫·克克勒提出开发一种网格并行处理体系结构,并建议用于国防部高级研究规划局的多态计算机体系结构项目中。多态系统意味着硬件应该根据不同的应用软件和不同的负载来对自身进行调节。在过去的三年中,这两位教授在德州大学和IBM研发中心得到了许多合作者的支持。 TRIPS是一个适应不同种类应用软件的通用体系结构,通过调用不同层次的指令、线程和数据级进行并行运算。与道格·伯格和史蒂夫·克克勒合作的德州大学的高级研究员查克·莫尔,曾任IBM的Power 4处理器设计开发组的总工程师。莫尔说,传统计算机为了运行更快,只能进行更多层次的管道处理,而TRIPS架构提供了比传统设计更多的指令级并行运算,因此即使是单线程应用软件也可以运行得更快。 进行结构再造 随着传统架构微处理器过去几年来的快速发展,为其编写软件也越来越难且耗资巨大。对于软件工程师来说,传统的硬件变得越来越“难于优化”,莫尔说:“我们认为微处理器硬件应该真正适用于在其上运行的软件的编制,而TRIPS架构恰恰将解决这一问题,该架构会动态适应运行其上的软件特点。” 克克勒教授指出,这种架构更多地依赖于编译器,来将指令分派到各个处理单元组合。他说:“我们不依赖于串行的、多层次的狭窄计算管道。”执行单元和指令构成一个“树形结构”,达到了连锁执行单元效果,因此现在那些指令的关键路径是通过数据序列进行的。伯格教授说,“原来的计算机是使用一个单一的指令,而我们则用大量的指令模块来实现同样的功能。” (王龙 编辑整理) 链 接 TRIPS项目简介 TRIPS是美国防高级研究计划局(DARPA) 资助多形态计算架构(PCA)研发的一个多学科的项目。TRIPS项目旨在超出原有架构,开发一种能够广泛应用的架构,顺应半导体技术进步的方向,实现单个芯片上万亿次计算性能。实现这些目标将需要在多个系统领域中进行创新整合,其中包括架构、编译、操作系统和应用程序。 TRIPS项目是德克萨斯大学和IBM奥斯汀研究实验室共同合作的产物。此次设计、评价和实施过程包括超大规模集成电路设计、构架、编译器、操作系统和应用程序的研究。 研发动机 随着晶体管集成度的提高和时钟频率的加快,人们很快发现处理器与系统被总线和存储器的延迟所束缚。芯片内的传输延迟将阻止传统的独立处理核心以最快的速度和效率运行。通过增加处理器流水线级数的方式将不再可能提高它的性能,而现有的微处理器结构在某些应用领域已经接近了它的极限性能。TRIPS设计则通过提供大量并行执行指令资源和减小实时系统的延迟,从而实质性提高了性能水平。利用这种方法,系统能够调整硬件资源,以满足不同应用程序的各种需求。 工作目标 TRIPS项目有四个主要的研究目的: 可升级技术架构:为了应对高性能处理器所提出的挑战,特别是在指令的选择、执行和旁路处理,TRIPS小组提出了一种被称为网格处理器架构(GPAs)的新型处理器结构。GPA是由通过细小的网络结构密集耦合的加法器单元阵列组成,在上面安置了指令模块。为了缓和芯片内部的传输延迟,各个应用程序被一一排列,重要的数据流的通路被安置在靠近加法器单元的位置。 可变架构:TRIPS可对不同的工作量和环境条件的不同需求而进行相应的配置。无论是网格处理器还是片内存储器都是可配置的,都可运行各种任务,如不同的控制整型代码、高度并行的线程代码以及普通的运算密集的流式代码。在网格内对加法器单元的分配,在网格上对指令的映射,执行线程的数目和通过栅格的指令流对系统、编译器与应用软件开放,从而实现最大限度的灵活性。一块TRIPS芯片由一个或者多个不相关但可并行工作的网格处理器组成。 灵活适应性:为了完成各项任务,不同条件下的TRIPS芯片提供了片内传感器和被称为Morphware的简单软件层,能够监测功率、温度、存储器性能与加法单元的使用情况。Morphware层控制执行资源的实时操作,在运行应用软件的要求、TRIPS执行能力与系统的操作环境之间进行协调。 应用多样性:TRIPS旨在针对不同的实时任务提供支持,包括桌面、技术、流和服务器工作量。桌面应用的特色是不规则的整体操作,技术计算的特色是它们庞大的数据包,流应用的特色是它们的规则和可预见性,服务器应用的特色是它们共同的工作量、独立的线程执行以及实时反映要求。TRIPS系统为执行所有这些任务灵活地提供支持。 (科译) |
|||||||||||||||||||||||||||||