ccidnet????

出版日期:1999-09-06 总期号:855 本年期号:65

本期导读
要闻综合
电脑工作室
市场
硬件
软件
infotimes
在cpu和内存间架一座桥
pc系统高速缓冲存储器cache的原理、设计及实现
佟平、赵焰


  前 言


  虽然cpu主频的提升会带动系统性能的改善,但系统性能的提高不仅仅取决于cpu,还与系统架构、指令结构、信息在各个部件之间的传送速度及存储部件的存取速度等因素有关,特别是与cpu/内存之间的存取速度有关。若cpu工作速度较高,但内存存取速度较低,则造成cpu等待,降低处理速度,浪费cpu的能力。如500mhz的pⅢ,一次指令执行时间为2ns,与其相配的内存(sdram)存取时间为10ns,比前者慢5倍,cpu和pc的性能怎么发挥出来?

  如何减少cpu与内存之间的速度差异?有4种办法:一种是在基本总线周期中插入等待,这样会浪费cpu的能力。另一种方法是采用存取时间较快的sram作存储器,这样虽然解决了cpu与存储器间速度不匹配的问题,但却大幅提升了系统成本。第3种方法是在慢速的dram和快速cpu之间插入一速度较快、容量较小的sram,起到缓冲作用;使cpu既可以以较快速度存取sram中的数据,又不使系统成本上升过高,这就是cache法。还有一种方法,采用新型存储器。目前,一般采用第3种方法。它是pc系统在不大增加成本的前提下,使性能提升的一个非常有效的技术。

  本文简介了cache的概念、原理、结构设计以及在pc及cpu中的实现。


  cache的工作原理


  cache的工作原理是基于程序访问的局部性。

  对大量典型程序运行情况的分析结果表明,在一个较短的时间间隔内,由程序产生的地址往往集中在存储器逻辑地址空间的很小范围内。指令地址的分布本来就是连续的,再加上循环程序段和子程序段要重复执行多次。因此,对这些地址的访问就自然地具有时间上集中分布的倾向。数据分布的这种集中倾向不如指令明显,但对数组的存储和访问以及工作单元的选择都可以使存储器地址相对集中。这种对局部范围的存储器地址频繁访问,而对此范围以外的地址则访问甚少的现象,就称为程序访问的局部性。

  根据程序的局部性原理,可以在主存和cpu通用寄存器之间设置一个高速的容量相对较小的存储器,把正在执行的指令地址附近的一部分指令或数据从主存调入这个存储器,供cpu在一段时间内使用。这对提高程序的运行速度有很大的作用。这个介于主存和cpu之间的高速小容量存储器称作高速缓冲存储器(cache)。

  系统正是依据此原理,不断地将与当前指令集相关联的一个不太大的后继指令集从内存读到cache,然后再与cpu高速传送,从而达到速度匹配。cpu对存储器进行数据请求时,通常先访问cache。由于局部性原理不能保证所请求的数据百分之百地在cache中,这里便存在一个命中率。即cpu在任一时刻从cache中可靠获取数据的几率。命中率越高,正确获取数据的可靠性就越大。一般来说,cache的存储容量比主存的容量小得多,但不能太小,太小会使命中率太低;也没有必要过大,过大不仅会增加成本,而且当容量超过一定值后,命中率随容量的增加将不会有明显地增长。只要cache的空间与主存空间在一定范围内保持适当比例的映射关系,cache的命中率还是相当高的。一般规定cache与内存的空间比为4:1000,即128kb cache可映射32mb内存;256kb cache可映射64mb内存。在这种情况下,命中率都在90%以上。至于没有命中的数据,cpu只好直接从内存获取。获取的同时,也把它拷进cache,以备下次访问。


  cache的基本结构


  cache通常由相联存储器实现。相联存储器的每一个存储块都具有额外的存储信息,称为标签(tag)。当访问相联存储器时,将地址和每一个标签同时进行比较,从而对标签相同的存储块进行访问。cache的3种基本结构如下:

  全相联cache

  在全相联cache中,存储的块与块之间,以及存储顺序或保存的存储器地址之间没有直接的关系。程序可以访问很多的子程序、堆栈和段,而它们是位于主存储器的不同部位上。因此,cache保存着很多互不相关的数据块,cache必须对每个块和块自身的地址加以存储。当请求数据时,cache控制器要把请求地址同所有地址加以比较,进行确认。这种cache结构的主要优点是,它能够在给定的时间内去存储主存器中的不同的块,命中率高;缺点是每一次请求数据同cache中的地址进行比较需要相当的时间,速度较慢。

表1  pc中部分已实现的cache技术

系统

l0

l1cache

l2cache

l3cache

cache

主存储器

8088

dram

80286

dram

80386dx

外部sram

sram

dram

80486dx

内部8kb

外部sram

sram

dram

pentium

内部8kb+8kb

外部sram

sram

dram

ppro

内部8kb+8kb

内部封装256kb或512kb

sram

dram

mmx

内部16kb+16kb

外部sram

sram

dram

pⅡ/pⅢ

内部16kb+16kb

卡上封装512kb~1mb

sram

dram

k6-Ⅲ

 

内部32kb+32kb

芯片背上封装256kb

外部1mb

sram

dram


  直接映像cache

  直接映像cache不同于全相联cache,地址仅需比较一次。在直接映像cache中,由于每个主存储器的块在cache中仅存在一个位置,因而把地址的比较次数减少为一次。其做法是,为cache中的每个块位置分配一个索引字段,用tag字段区分存放在cache位置上的不同的块。单路直接映像把主存储器分成若干页,主存储器的每一页与cache存储器的大小相同,匹配的主存储器的偏移量可以直接映像为cache偏移量。cache的tag存储器(偏移量)保存着主存储器的页地址(页号)。以上可以看出,直接映像cache优于全相联cache,能进行快速查找,其缺点是当主存储器的组之间做频繁调用时,cache控制器必须做多次转换。

  组相联cache

  组相联cache是介于全相联cache和直接映像cache之间的一种结构。这种类型的cache使用了几组直接映像的块,对于某一个给定的索引号,可以允许有几个块位置,因而可以增加命中率和系统效率。


  cache与dram存取的一致性


  在cpu与主存之间增加了cache之后,便存在数据在cpu和cache及主存之间如何存取的问题。读写各有2种方式。

  贯穿读出式(look through)

  该方式将cache隔在cpu与主存之间,cpu对主存的所有数据请求都首先送到cache,由cache自行在自身查找。如果命中,则切断cpu对主存的请求,并将数据送出;不命中,则将数据请求传给主存。该方法的优点是降低了cpu对主存的请求次数,缺点是延迟了cpu对主存的访问时间。

  旁路读出式(look aside)

  在这种方式中,cpu发出数据请求时,并不是单通道地穿过cache,而是向cache和主存同时发出请求。由于cache速度更快,如果命中,则cache在将数据回送给cpu的同时,还来得及中断cpu对主存的请求;不命中,则cache不做任何动作,由cpu直接访问主存。它的优点是没有时间延迟,缺点是每次cpu对主存的访问都存在,这样,就占用了一部分总线时间。

  写穿式(write through)

  任一从cpu发出的写信号送到cache的同时,也写入主存,以保证主存的数据能同步地更新。它的优点是操作简单,但由于主存的慢速,降低了系统的写速度并占用了总线的时间。

  回写式(copy back)

  为了克服贯穿式中每次数据写入时都要访问主存,从而导致系统写速度降低并占用总线时间的弊病,尽量减少对主存的访问次数,又有了回写式。它是这样工作的:数据一般只写到cache,这样有可能出现cache中的数据得到更新而主存中的数据不变(数据陈旧)的情况。但此时可在cache 中设一标志地址及数据陈旧的信息,只有当cache中的数据被再次更改时,才将原更新的数据写入主存相应的单元中,然后再接受再次更新的数据。这样保证了cache和主存中的数据不致产生冲突。


  cache的分级体系设计


  微处理器性能由如下几种因素估算:

  性能=k(fⅹ1/cpi-(1-h)ⅹn)

  式中:k为比例常数,f为工作频率,cpi为执行每条指令需要的周期数,h为cache的命中率,n为存储周期数。

  虽然,为了提高处理器的性能,应提高工作频率,减少执行每条指令需要的周期数,提高cache的命中率。同时分发多条指令和采用乱序控制,可以减少cpi值;采用转移预测和增加cache容量,可以提高h值。为了减少存储周期数n,可采用高速的总线接口和不分块的cache方案。以前提高处理器的性能,主要靠提高工作频率和提高指令级的并行度,今后则主要靠提高cache的命中率。设计出无阻塞cache分级结构。

  cache分级结构的主要优势在于,对于一个典型的一级缓存系统的80%的内存申请都发生在cpu内部,只有20%的内存申请是与外部内存打交道。而这20%的外部内存申请中的80%又与二级缓存打交道。因此,只有4%的内存申请定向到dram中。

  cache分级结构的不足在于高速缓存组数目受限,需要占用线路板空间和一些支持逻辑电路,会使成本增加。综合比较结果还是采用分级cache。

  l1 cache的设计有在片一级分离和统一设计两种方案。

  intel、amd、原dec等公司将l1 cache设计成指令cache与数据cache分离型。因为这种双路高速缓存结构减少了争用高速缓存所造成的冲突,改进了处理器效能,以便数据访问和指令调用在同一时钟周期内进行。

  但是,仅依靠增加在片一级cache的容量,并不能使微处理器性能随之成正比例地提高,还需设置二级cache。

  在l1 cache结构方面,一般采用回写式静态随机存储器(sram)。目前,l1 cache容量有加大的趋势。

  l2 cache的设计分芯片内置和外置两种设计。

  如amd k6-3内置的256kb l2 cache与cpu同步工作。外置l2 cache,一般都要使二级cache与cpu实现紧密耦合,并且与在片一级cache形成无阻塞阶层结构。同时还要采用分离的前台总线(外部i/o总线)和后台总线(二级cache总线)模式。显然,将来随着半导体集成工艺的提高,如果cpu与二级cache集成在单芯片上,则cpu与二级cache的耦合效果可能更佳。

  由于l2 cache内置,因此,还可以在原主板上再外置大容量缓存1mb~2mb,它被称为l3 cache。


  pc中的cache技术的实现


  pc中cache的发展是以80386为界的。主要内容请参见“跟着cpu的脚步”一文。

  目前,pc中部分已实现的cache技术如表1所示。


  结 语


  目前,pc系统的发展趋势之一是cpu主频越做越高,系统架构越做越先进,而主存dram的结构和存取时间改进较慢。因此,cache技术愈显重要,在pc系统中cache越做越大。广大用户已把cache做为评价和选购pc系统的一个重要指标。本文小结了cache的源脉。希望可以给广大用户一个较系统的参考。