大爱的CUDA:图像亮度直方图统计
小俊2009/08/07软件综合 IP:广东
(发些代码赚些零用KCB来花花)

CPU实现大法:计算每个点的亮度值(0~255),然后用一个256大小的数组统计每个亮度的点的数量。



对1280*1024大小的图像,在QX6600(2.4GHz)上单线程运行时间为17.5ms。

hist_cpu.jpg
+777  科创币    破93    2009/08/07 70马要赞扬
来自:计算机科学 / 软件综合
12
 
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
小俊 作者
15年0个月前 IP:未同步
137898
CUDA实现大法:和CPU法原理差不多,但实现起来要分两步。第一步把整个图像分成很多个部分,每个部分用一个线程块(含很多个线程)独立统计;第二步则把各个部分独立统计的结果再累加起来得到总的统计结果。之所以用这个方法是从GPU内部架构考虑的,因为每个部分并行独立统计的结果可以放在对应的片上shared memory中,效率很高。代码比较复杂:



同样大小的图像,在Geforce GTX 285上计算时间为0.56ms,比QX6600上单线程提速约30倍。

hist_gpu.jpg
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
novakon
14年11个月前 IP:未同步
137938
小俊那里是否能便宜拿到显卡?geforce8XXX系列我想弄一块,越便宜越好,最好100元以内解决
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
phpskycn
14年11个月前 IP:未同步
138010
我能300搞到块9600GT-512MB
等我买新机器装上
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊作者
14年11个月前 IP:未同步
138140
引用第3楼novakon于2009-08-08 10:05发表的  :
小俊那里是否能便宜拿到显卡?geforce8XXX系列我想弄一块,越便宜越好,最好100元以内解决


弄不到。我现在台式机用的显卡和主板是在NV美国总部的垃圾堆捡回来的。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
darkstorm
14年11个月前 IP:未同步
138264
对了,经研究发现最后一步可以用对global atomic实现
第二个kernel可以省掉
以前理解有误
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊作者
14年11个月前 IP:未同步
138281
引用第6楼darkstorm于2009-08-08 23:06发表的  :
对了,经研究发现最后一步可以用对global atomic实现
第二个kernel可以省掉
以前理解有误


是不是在__syncthreads之后,直接把各线程块的shared memory的内容通过AtomicAdd累加到global memory中呢?
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊作者
14年11个月前 IP:未同步
138284
这样?

atomicAdd((int *)&out[tid], smem[tid]);
atomicAdd((int *)&out[tid + 128], smem[tid + 128]);
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
acmilan
14年11个月前 IP:未同步
138337
好像在科创搞计算机的都一夜暴富了呵。。。
我还是一穷光蛋。。。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
darkstorm
14年11个月前 IP:未同步
138391
引用第8楼小俊于2009-08-08 23:40发表的  :
这样?

atomicAdd((int *)&out[tid], smem[tid]);
atomicAdd((int *)&out[tid + 128], smem[tid + 128]);


引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
小俊作者
14年11个月前 IP:未同步
138828
引用第10楼darkstorm于2009-08-09 11:39发表的  :




今天试了一下,改成对global memory原子加之后,计算时间从0.56ms减少到0.55ms,还是有一定作用的,多谢指教!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
novakon
14年11个月前 IP:未同步
141557
引用第5楼小俊于09-08-08 18:30发表的  :


弄不到。我现在台式机用的显卡和主板是在NV美国总部的垃圾堆捡回来的。

啊(突然头很痛)。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

所属专业
上级专业
同级专业
小俊
进士 学者 机友 笔友
文章
71
回复
1156
学术分
47
2006/12/29注册,1个月0天前活动
暂无简介
主体类型:个人
所属领域:无
认证方式:手机号
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}