CSX620 64B运算加速卡，厂家提供开发工具和开发包,我想知怎么样用这些东西请人开发

文号t31151

3696

jrcsh2011/01/07软件综合 IP:广东

3.3.2 CSX600加速道理

　　 CSX600的加速道理如图4所示，ClearSpeed供给了CSXL和CSDFT（图中未标识）两种专门的函数库API对协措置奖惩器举行编程。CSXL已经实现了和通用的BLAS等库接口的兼容。对付已和ACML/MKL/GOTO等当地BLAS库链接的步伐，无需从头编译即可利用。只要设置利用ClearSpeed的CSXL BLAS库，并指定主机的CPU执行的计算比例即可。当步伐挪用数学库时，CSXL把响应的计算使命根据设置的比例分派给当地BLAS和CSXL BLAS，然后别离在主机的CPU和CSX600协措置奖惩器上计算，以到达主动负载均衡的结果。

　　图4 CSX600加速道理

XXXXXXXXXXXXXXXXXXXXXXXXX/ 厂家

网上找的一些资料我想知怎么样用这块加速卡的开发包来给运算软件加快运算速度(基本路线就是数据运算交给个个块来运算这块卡的性能是 50GF)

来自：计算机科学 / 软件综合

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

~~空空如也

jrcsh

作者

14年1个月前 IP:未同步

273361

1楼

Re:CSX620 64B运算加速卡，厂家提供开发工具和开发包,我会想知怎么样用这些东西请人

3.2  CSX600加速器
3.2.1  CSX600架构和性能
    CSX600由96个执行单元（PE）组成。每个PE是一个超长指令字的核，每个PE由算逻部件、3读2写的寄存器文件、4KB的存储器以及输入输出单元组成（如图3所示）。数据和指令从本地主存读到芯片内高速缓存（cache），经过控制单元内的取指/译码部件和指令发射部件将数据和指令分别发给不同的PE。采用130nm工艺制造，主频250MHz，单芯片功耗为10W。

图3 ClearSpeed架构
    两个CSX600安装在一块加速卡上，通过PCI-X（而后为PCI-E）和主处理器相连。每一块CSX600 PCI-X板都拥有50GFLOPS的处理性能，采用PCI-X接口，功耗只有25W。通过360个CSX600加速卡的加速，将整个TSUBAME系统的浮点性能从38.18TFLOPS提高到了47.38TFLOPS，而在性能提升24％的同时，整套系统的功耗仅仅增加了1％。
3.3.2  CSX600加速原理
    CSX600的加速原理如图4所示，ClearSpeed提供了CSXL和CSDFT（图中未标识）两种专门的函数库API对协处理器进行编程。CSXL已经实现了与通用的BLAS等库接口的兼容。对于已与ACML/MKL/GOTO等本地BLAS库链接的程序，无需重新编译即可使用。只要设置使用ClearSpeed的CSXL BLAS库，并指定主机的CPU执行的计算比例即可。当程序调用数学库时，CSXL把相应的计算任务按照设置的比例分配给本地BLAS和CSXL BLAS，然后分别在主机的CPU和CSX600协处理器上计算，以达到自动负载平衡的效果。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

jrcsh

作者

14年1个月前 IP:未同步

273363

2楼

加速芯片对比分析
    目前，应用到超级计算机中的加速器主要有以下几种，表1就这几种加速器进行比较分析。
表1  加速芯片对比表
加速器 CELL CSX600 GT200 MDGRAPE
主频（GHz）   3.2       0.25      1.296    0.25
核心数          9           96          240    340
性能（GFlops） 204.8    25       1000    165
工艺          90nm   130nm   65nm  130nm
功耗（W）     50          10         160      80W
性能/功耗       4           2.5           6.25     2

    ◆ 加速部件的性能功耗比都较高，这就是超级计算机采用加速部件构建的主要原因。
    ◆ 加速部件都采用多核乃至众核构成，可以取得较好的峰值性能。
    ◆ 从性能上看，GT200在单精度性能上要远高于其他加速器，由于其使用了先进的65nm集成电路制造工艺，导致其性能功耗比较高。由于其结构本身的特点，双精度浮点计算性能远远落后于其单精度浮点计算性能。
    ◆ 早期的CELL处理器双精度性能也较低，为了将其应用于高性能计算，加强了双精度浮点计算的性能。
    ◆ CSX600和MDGRAPE-3出现的时间较早，在性能上和功耗上要落后于其他。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

phpskycn

14年1个月前 IP:未同步

273368

3楼

GT200似乎有256SP吧。另外这个过时了Tesla 2050/2070 GF100-875-A3有512SP。双精度性能可以达到单精度的一半。但是跟CUDA一样，要使用加速卡就必须重新编写程序，用厂商的API替代原有函数。需要找人搞懂厂商提供的库的功能、使用方法、加速卡工作原理。另外要确认你的sun的MB上有PCI-X插槽。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

phpskycn

14年1个月前 IP:未同步

273369

4楼

补充一句。GF100功耗大得惊人，TDP就250W以上了。需要2个额外供电口，另外发热、体积都是个问题。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

小俊

14年0个月前 IP:未同步

273558

5楼

引用第3楼phpskycn于2011-01-07 21:32发表的 :
GT200似乎有256SP吧。另外这个过时了Tesla 2050/2070 GF100-875-A3有512SP。双精度性能可以达到单精度的一半。但是跟CUDA一样，要使用加速卡就必须重新编写程序，用厂商的API替代原有函数。需要找人搞懂厂商提供的库的功能、使用方法、加速卡工作原理。另外要确认你的sun的MB上有PCI-X插槽。

GT200满规格是240SP。GT2xx的架构是堆不出256SP来的。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

phpskycn

14年0个月前 IP:未同步

273583

6楼

。。。。。。记岔了

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

小俊

14年0个月前 IP:未同步

273799

7楼

这卡应该很老了吧。0.13um工艺和50GFLOP性能，都是相当落后。
现在最低端的GT218核心，都差不多有这个性能了。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

当前账号的附件下载数量限制如下：

请选择违规类型：

空空如也