ccidnet????

出版日期:2001-03-05 总期号:999 本年期号:14

本期导读
要闻综合
电脑工作室
渠道与市场
产品与应用
软件与服务
再探P4架构,理解真实性能
Intel P4样机测试


  在本报测试实验室去年11月进行的Pentium 4抢先测试中,我们用了很大的篇幅对Intel最新发布的这颗IA-32终结者作了一次较为详细的剖析与探讨,同时也为大家展示了它在目前诸多主流测试软件中的表现,并对我们的测试结果作了进一步分析。当时我们的结论是“对于今天,P4也许并不完美,但着眼于未来,P4将更具优势”。不过当时由于种种原因,我们的测试还遗留了一些小问题未能尽述,因此我们今天就再来和大家探究一下P4的奥秘吧!


  ■焦点回顾



  送测样品 Intel P4样机

  为了保持文章的完整性,我们先花几分钟来简要回顾一下P4的主要技术及结构特点,参见表1。


  ■改进型的PGA封装



  P4封装结构

  423 Pin Socket结构的P4,仍采用0.18微米铝连线、六层CMOS工艺,晶体管数目达到了4200万个,核心电压1.7V,核心尺寸为170mm2。由于设计复杂,工作频率更高,P4的功耗显然要比以往产品高很多,1.50 GHz 竟然达到了54.7W(和AMD Athlon有一拼了),因而它在散热和供电方面都比较讲究。除了我们以前曾经提到过的特制铜(底)散热器和符合ATX 12V规范(ATX 2.03)的电源,P4的PGA (Pin Grid Array针格阵列)封装也有所改变。从照片中我们可以清楚地看到,P4共分为3层:镍铜(Nickel over copper)散热顶层IHS (Integrated Heat Spreader)、衬有硅的褐色有机底板OLGA(Organic Land Grid Array) 和绿色的FR4转接基板。真正的内核(DIE)则通过一层导热界面(Thermal Interface)翻转式(Flip Chip)封装在IHS和OLGA之间。这种设计使得核心的热量可以更有效地传导至外面的散热器上(当然也有保护内核的作用),从而更好地保证了CPU工作的稳定性,当然同时也会在一定程度上增加制造成本。我猜在下一代0.13微米的P4(内部代号Northwood)出台时,情况可能会有所不同,这有点像先前的SECC封装一样。


  ■内核的改变


  有关P4内核的重大变化,如:400MHz系统总线、两倍速的ALU、20级超级流水线……先前已经讲过很多了,在这里我们也不想再作重复,只想补充些新的内容,或者是大家还没太注意的内容。

表1 p4的主要技术及结构特点

正式名称

pentium 4(奔腾 4) 研发代号:willamette

微架构代号

netburst

封装

423pin fc-pga (flip chip pin grid array)

l1 cache

8kb数据+12kb执行跟踪缓存(execution track cache)

l2 cache

256位256kb全速on-die advanced transfer cache

执行管线

20级超级流水线(hyper pipelined)

alu(算术逻辑单元)

快速执行引擎(rapid execution engine)两倍速的alu

多媒体指令集

mmx+sse+sse 2(全新的144条simd指令,可进行两组64位整数/双精度浮点simd操作)

系统总线(system bus)

400mhz,采用类似qdr(四倍数据率)技术,以物理100 mhz系统总线速率来实现400mhz总线带宽的效果,即3.2gb/s的数据传输带宽。


表2 性能测试结果表

intel p4 launcher v2.1

p4 1.5ghz w2k+dx8

pⅢ 1ghz w2k+dx8

 

总成绩

耗费时间

总成绩

耗费时间

ejay mp3+ 1.3

139

162.61 s

102

221.6s

ligos gomotion

109

98.06 fps(帧率)

84

75.95fps

magnitrax 1.02x

125

27.454 s

95

36.094s

naturally speaking perf 4.0

129

132.400 s

87

196.262s

permiere with ligos

123

59.984 s

86

86.124s

video studio 4.0

138

67.586 s

84

111.140s

win media encoder 7.0

148

75.867 s

84

134.183s

sisoft sandra 2001

p4 1.5ghz w2k+dx8

pⅢ 1ghz

dhrystone alu

2731 mips

2720 mips

whetstone fpu/sse2

780/1822 mflops

1336/— mflops

integer sse2

5903 it/s

5452 it/s

floating-point sse2

7251 it/s

6672 it/s (sse)

alu/ram bandwidth

1484 mb/s

243 mb/s

fpu/ram bandwidth

1522 mb/s

270 mb/s


  首先,Intel终于决定彻底放弃曾经引起轩然大波的PSN(Processor Serial Number序列号),尽管它曾作为P3的一大安全特性而被Intel广为宣传,但出于个人隐私权问题的考虑,该技术受到了前所未有的反对。即便是在Intel提供了可以自由开关该功能的调节软件之后,仍然有很多人对此耿耿于怀(其实真的有那么严重吗?)。为了避免麻烦,在P4中,Intel取消了此项功能设计。其实,这一消息早在上次Intel的P4测试技术会时就已得到了官方证实,但出于对读者负责的态度,我们并没有把该内容加到前次P4抢先测试报告中,因为当时我们还没有得到测试工具来证实这一点。最新版的WCPUID Ver.2.8c-B5为我们证实了这一说法,P4的确已经不再支持该功能。


  Sumsang Rambus内存(P4必须由Rambus内存来支持)

  其次,我们想再来说一下P4的“两倍速ALU”架构,这是NetBurst架构的重要部分。人们一般只是粗略地认为它是一个2速的算术逻辑单元(ALU),其实要是了解了它的内部微架构,对我们真正理解其性能表现将大有帮助。P4的“ALU”包括2倍速的ALU和AGU(地址生成单元)各两组,以及一个单倍速的低速ALU。其中前面的两组2倍速ALU主要被用来高效地处理简单指令(简单的μOP),而一旦遇到较为复杂的指令,CPU将会把它交给后面的低速ALU来处理,此时的性能自然会有大幅度的下降。这就是它在处理实际的整型数据时,性能并不能完全到达2倍于以前架构的根本原因之一。当然,由于绝大多数的程序指令都属于它能够处理的简单指令,因此这样的设计也是十分合理的。此外,由于在浮点处理单元方面,P4也有所调整,增加了SSE2指令集,省却了“多余”的一组MMX/SSE,这使得它更适合运用高效的SSE2双精度浮点指令,但在处理传统X87浮点指令时,并不占优势,而这也正可以很好地解释为什么我们上次测试中P4的浮点性能并不如大家(Intel)所期望的那么好。


  P4样机箱内散热情况

  当然,SSE2的确是一个非常优秀的双精度SIMD流扩展指令集,它不但可以提供传统的单精度浮点处理能力,还能进行两组64位整数/双精度浮点SIMD操作和128位整型及长字型运算,难怪AMD最近也表示,将会在其下一代的64位K8处理器中加入对该指令集的支持。


  ■性能测试


  由于有了上次的P4抢先测试,全面的性能测试显然已经不是本次测试的重点。在这里我们将测试重点放在了Intel的P4 Application Launcher v2.1测试工具上,因为这套工具几乎囊括了目前可以体现P4性能的所有应用,包括Video studio 4.0、Win Media Encoder 7.0、Permiere、EJAY MP3等几套主流前卫的多媒体编辑(MPEG压缩、视频处理、语音识别……)工具。此外我们还新增了最新发布真正支持P4(SSE2)的Sisoft Sandra 2001.0.7.10以及WCPUID Ver.2.8c-B5的测试,参见表2。

整个alu逻辑单元

1×alu

2×alu

2×alu

2×agu

2×agu

复杂指令

简单指令

简单指令

存储地址

装载地址


  P4 ALU逻辑单元

  Intel本次送测的这套P4系统,在P4 Application Launcher v2.1中全面大幅胜出,领先幅度竟有20%~50%之多,甚至超出了我们前次测试的P4系统,这清楚地显示P4在多媒体方面的强大性能。这一成绩不但取决于其极高的配置,如256MB RDRAM、64MB DDR显卡,也在很大程度上受益于该系统配备的新版BIOS。我们上次的测试由于是在P4正式发布之前进行的,BIOS版本显然还不是最终版,因而在性能、稳定性和兼容性方面上还存在着一些问题,所以测试结果有较明显的差距尚属正常。

  Sisoft Sandra 2001中,P4在两项RAM Bandwidth带宽测试中的表现,充分显示了400MHz系统总线和256MB双PC-800 RDRAM的3.2GB带宽优势。而正如我们看到的,在表现传统X87和SSE2浮点处理能力的Whetstone FPU/SSE2测试中, P4的Whetstone FPU(传统X87)成绩几乎只有P3的一半,只有调用SSE2来代替X87指令时,P4才能以一定幅度取胜。注意由于P3没有SSE2,因此要和其运行X87指令的性能来作对比。此外,在了解了P4 ALU子系统的内部架构之后,我们也就不难理解P4 ALU的测试结果了,P4领先优势微弱。在其它两项关于多媒体扩展指令集的性能测试中,P4也是小幅领先,看来它在纯粹运行这些指令的效能方面并无明显优势,但我们相信(期望)在实际应用中,SSE2的表现会更好。


  综述


  完成本次P4测试,使我们对P4的结构有了更深入的了解,也为我们的测试结果提供了理论依据,使我们可以更好地理解P4的真实性能。本次测试当然也再次证实了P4的适用领域应该是在今后益复杂的高端多媒体领域,在那里SSE2肯定会大显神威。此外,目标2GHZ以上的主频,也是P4后冲击市场的一项杀手锏。我闪的结论依旧:“对于今天,P4也许并不完美,但着眼于未来,P4将更具优势”。