基于CC―NUMA的多处理器系统研究

作者：时间：2009-04-23 来源：网络收藏

图4中展现了北桥架构细节，包括交叉通道(XBar)、内存管理器之间的路由指令和数据信息、3个HyperTransport(超传输)技术的连接和处理器自己的系统请求接口(System Request Interface，SRI)。
现在对Opteron处理器组成的CC―NUMA系统的内存访问进行分析。将内存访问分为本地访问和远程访问。如图5所示为hops图，处理器对本地存储器的访问，由于其无需经过节点，访问路程为O―hop(跳跃)，依次的处理器分别需要经过1个和2个其他的处理器才能访问远程存储器，路程分别为1一 hop和2-hops。Opteron处理器支持在无其他任何芯片组连接的情况下支持无粘合地将至多8个处理器连接成CC―NUMA多处理器系统。如图6 所示为8个处理器拓扑，它有将8个处理器连接成多处理器系统的两种方案。在图6中，提供两条HyperTransport I／0通道，32 GB／s的对分带宽，经过计算其平均访问路程为1．64 hops。图6提供了4条HyperTransport I／O通道，25．6 GB／s的对分带宽，1．71hops的平均访问路程。这两种方案各有所长，前者I／O带宽虽然小于后者，但提供了更高的处理器间带宽和更小的平均访问路程，在访问延迟上也相当小，所以在总体性能上优于后者。

本文引用地址：//m.amcfsurvey.com/article/202701.htm

3 新型架构
考虑到以上两种架构所用的处理器具有特殊性，都有独有的处理器间互联总线，不能推广到大部分处理器。而Origin2000的架构过于复杂，也就失去了其普遍性。故在此，基于前几种架构，提出一种更加简单、通用的CC―NUMA框架，如图7所示为一个四处理器的系统原理图。

图7中，整个系统完全是一个模块化的架构，各个模块之间都是独立的，包括CPU、内存控制器、存储器路由器、存储器以及I／0系统。每个CPU有自己的CACHE、内存控制器和可共享的本地存储器，CPU可以直接访问本地存储器，也可以通过存储器路由选择存储器，然后访问远程存储器。CACHE的一致性也通过存储器路由实现。这样，在CPU L2 CACHE比较大的情况下，CPU可以较少地访问存储器，或者可以很快地访问本地存储器，减少在访问远程存储器时的延迟。各处理器之间的互联可以通过现有的各种总线完成，如PCI一E，RAPIDI／O等，这样既利用了现有技术，又很方便，具体实现还在研究中。
存储器路由的选择可以由高速FPGA实现，不同的FPGA可以扩展到不同数量、类型的处理器，所以整个系统的扩展性大大提高。
系统带宽取决于内存控制器带宽，其平均的访问路程为1．5 hops，明显低于前面几种架构的延迟。在总体性能上主要取决于FPGA路由器的性能。当前的高速FPGA在频率吞吐量上可以达到500 MHz以上的速度，在单引脚上可以达到6．5 Gb／s的传输，完全可以满足存储器路由的带宽要求，并且其高频率也可以有效控制整个系统的访存延迟。
整个系统可以快速地配置起来，并且可以扩展。所用的处理器可以是X86架构的处理器、PowerPc、MIPS处理器等，甚至一些嵌入式处理器也可以使用，真正达到了通用性。

4 结语
多处理器系统的建构是一个很复杂的工程，要想充分发挥硬件架构的性能优势还需要操作系统及应用程序的配合，不同的操作系统及应用程序运行在同样的处理构架上其性能表现也会大相径庭。

新闻中心

基于CC―NUMA的多处理器系统研究

评论

相关推荐

技术专区