3.2 CSX600加速器
3.2.1 CSX600架构和性能
CSX600由96个执行单元(PE)组成。每个PE是一个超长指令字的核,每个PE由算逻部件、3读2写的寄存器文件、4KB的存储器以及输入输出单元组成(如图3所示)。数据和指令从本地主存读到芯片内高速缓存(cache),经过控制单元内的取指/译码部件和指令发射部件将数据和指令分别发给不同的PE。采用130nm工艺制造,主频250MHz,单芯片功耗为10W。
图3 ClearSpeed架构
两个CSX600安装在一块加速卡上,通过PCI-X(而后为PCI-E)和主处理器相连。每一块CSX600 PCI-X板都拥有50GFLOPS的处理性能,采用PCI-X接口,功耗只有25W。通过360个CSX600加速卡的加速,将整个TSUBAME系统的浮点性能从38.18TFLOPS提高到了47.38TFLOPS,而在性能提升24%的同时,整套系统的功耗仅仅增加了1%。
3.3.2 CSX600加速原理
CSX600的加速原理如图4所示,ClearSpeed提供了CSXL和CSDFT(图中未标识)两种专门的函数库API对协处理器进行编程。CSXL已经实现了与通用的BLAS等库接口的兼容。对于已与ACML/MKL/GOTO等本地BLAS库链接的程序,无需重新编译即可使用。只要设置使用ClearSpeed的CSXL BLAS库,并指定主机的CPU执行的计算比例即可。当程序调用数学库时,CSXL把相应的计算任务按照设置的比例分配给本地BLAS和CSXL BLAS,然后分别在主机的CPU和CSX600协处理器上计算,以达到自动负载平衡的效果。
3.2.1 CSX600架构和性能
CSX600由96个执行单元(PE)组成。每个PE是一个超长指令字的核,每个PE由算逻部件、3读2写的寄存器文件、4KB的存储器以及输入输出单元组成(如图3所示)。数据和指令从本地主存读到芯片内高速缓存(cache),经过控制单元内的取指/译码部件和指令发射部件将数据和指令分别发给不同的PE。采用130nm工艺制造,主频250MHz,单芯片功耗为10W。
图3 ClearSpeed架构
两个CSX600安装在一块加速卡上,通过PCI-X(而后为PCI-E)和主处理器相连。每一块CSX600 PCI-X板都拥有50GFLOPS的处理性能,采用PCI-X接口,功耗只有25W。通过360个CSX600加速卡的加速,将整个TSUBAME系统的浮点性能从38.18TFLOPS提高到了47.38TFLOPS,而在性能提升24%的同时,整套系统的功耗仅仅增加了1%。
3.3.2 CSX600加速原理
CSX600的加速原理如图4所示,ClearSpeed提供了CSXL和CSDFT(图中未标识)两种专门的函数库API对协处理器进行编程。CSXL已经实现了与通用的BLAS等库接口的兼容。对于已与ACML/MKL/GOTO等本地BLAS库链接的程序,无需重新编译即可使用。只要设置使用ClearSpeed的CSXL BLAS库,并指定主机的CPU执行的计算比例即可。当程序调用数学库时,CSXL把相应的计算任务按照设置的比例分配给本地BLAS和CSXL BLAS,然后分别在主机的CPU和CSX600协处理器上计算,以达到自动负载平衡的效果。
200字以内,仅用于支线交流,主线讨论请采用回复功能。