CSX620 64B运算加速卡,厂家提供开发工具和开发包,我想知怎么样用这些东西请人开发
jrcsh2011/01/07软件综合 IP:广东
3.3.2 CSX600加速道理

   CSX600的加速道理如图4所示,ClearSpeed供给了CSXL和CSDFT(图中未标识)两种专门的函数库API对协措置奖惩器举行编程。CSXL已经实现了和通用的BLAS等库接口的兼容。对付已和ACML/MKL/GOTO等当地BLAS库链接的步伐,无需从头编译即可利用。只要设置利用ClearSpeed的CSXL BLAS库,并指定主机的CPU执行的计算比例即可。当步伐挪用数学库时,CSXL把响应的计算使命根据设置的比例分派给当地BLAS和CSXL BLAS,然后别离在主机的CPU和CSX600协措置奖惩器上计算,以到达主动负载均衡的结果。

  图4 CSX600加速道理

XXXXXXXXXXXXXXXXXXXXXXXXX/    厂家





网上找的一些资料    我想知怎么样用这块加速卡的 开发包来给 运算软件加快运算速度(基本路线就是 数据运算交给个个块来运算 这块卡的性能是 50GF)
来自:计算机科学 / 软件综合
7
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
jrcsh 作者
14年1个月前 IP:未同步
273361
Re:CSX620 64B运算加速卡,厂家提供开发工具和开发包,我会想知怎么样用这些东西请人
3.2  CSX600加速器
3.2.1  CSX600架构和性能
    CSX600由96个执行单元(PE)组成。每个PE是一个超长指令字的核,每个PE由算逻部件、3读2写的寄存器文件、4KB的存储器以及输入输出单元组成(如图3所示)。数据和指令从本地主存读到芯片内高速缓存(cache),经过控制单元内的取指/译码部件和指令发射部件将数据和指令分别发给不同的PE。采用130nm工艺制造,主频250MHz,单芯片功耗为10W。

1.jpg

图3 ClearSpeed架构
    两个CSX600安装在一块加速卡上,通过PCI-X(而后为PCI-E)和主处理器相连。每一块CSX600 PCI-X板都拥有50GFLOPS的处理性能,采用PCI-X接口,功耗只有25W。通过360个CSX600加速卡的加速,将整个TSUBAME系统的浮点性能从38.18TFLOPS提高到了47.38TFLOPS,而在性能提升24%的同时,整套系统的功耗仅仅增加了1%。
3.3.2  CSX600加速原理
    CSX600的加速原理如图4所示,ClearSpeed提供了CSXL和CSDFT(图中未标识)两种专门的函数库API对协处理器进行编程。CSXL已经实现了与通用的BLAS等库接口的兼容。对于已与ACML/MKL/GOTO等本地BLAS库链接的程序,无需重新编译即可使用。只要设置使用ClearSpeed的CSXL BLAS库,并指定主机的CPU执行的计算比例即可。当程序调用数学库时,CSXL把相应的计算任务按照设置的比例分配给本地BLAS和CSXL BLAS,然后分别在主机的CPU和CSX600协处理器上计算,以达到自动负载平衡的效果。

4.jpg
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
jrcsh作者
14年1个月前 IP:未同步
273363
加速芯片对比分析
    目前,应用到超级计算机中的加速器主要有以下几种,表1就这几种加速器进行比较分析。
表1  加速芯片对比表
加速器 CELL CSX600 GT200 MDGRAPE
主频(GHz)   3.2       0.25      1.296    0.25
核心数          9           96          240    340
性能(GFlops) 204.8    25       1000    165
工艺          90nm   130nm   65nm  130nm
功耗(W)     50          10         160      80W
性能/功耗       4           2.5           6.25     2

    ◆ 加速部件的性能功耗比都较高,这就是超级计算机采用加速部件构建的主要原因。
    ◆ 加速部件都采用多核乃至众核构成,可以取得较好的峰值性能。
    ◆ 从性能上看,GT200在单精度性能上要远高于其他加速器,由于其使用了先进的65nm集成电路制造工艺,导致其性能功耗比较高。由于其结构本身的特点,双精度浮点计算性能远远落后于其单精度浮点计算性能。
    ◆ 早期的CELL处理器双精度性能也较低,为了将其应用于高性能计算,加强了双精度浮点计算的性能。
    ◆ CSX600和MDGRAPE-3出现的时间较早,在性能上和功耗上要落后于其他。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
phpskycn
14年1个月前 IP:未同步
273368
GT200似乎有256SP吧。另外这个过时了Tesla 2050/2070 GF100-875-A3有512SP。双精度性能可以达到单精度的一半。但是跟CUDA一样,要使用加速卡就必须重新编写程序,用厂商的API替代原有函数。需要找人搞懂厂商提供的库的功能、使用方法、加速卡工作原理。另外要确认你的sun的MB上有PCI-X插槽。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
phpskycn
14年1个月前 IP:未同步
273369
补充一句。GF100功耗大得惊人,TDP就250W以上了。需要2个额外供电口,另外发热、体积都是个问题。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊
14年0个月前 IP:未同步
273558
引用第3楼phpskycn于2011-01-07 21:32发表的  :
GT200似乎有256SP吧。另外这个过时了Tesla 2050/2070 GF100-875-A3有512SP。双精度性能可以达到单精度的一半。但是跟CUDA一样,要使用加速卡就必须重新编写程序,用厂商的API替代原有函数。需要找人搞懂厂商提供的库的功能、使用方法、加速卡工作原理。另外要确认你的sun的MB上有PCI-X插槽。


GT200满规格是240SP。GT2xx的架构是堆不出256SP来的。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
phpskycn
14年0个月前 IP:未同步
273583
。。。。。。记岔了
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊
14年0个月前 IP:未同步
273799
这卡应该很老了吧。0.13um工艺和50GFLOP性能,都是相当落后。
现在最低端的GT218核心,都差不多有这个性能了。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

所属专业
上级专业
同级专业
jrcsh
学者 笔友
文章
491
回复
6730
学术分
4
2009/01/02注册,6年11个月前活动

.

主体类型:个人
所属领域:无
认证方式:邮箱
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}