文件名称:
基于CUDA技术的卷积神经网络识别算法
开发工具:
文件大小: 953kb
下载次数: 0
上传时间: 2019-04-19
详细说明:基于CUDA技术的卷积神经网络识别算法For idy=l To n Do
浮点运算能力表现平稳,呈线性态势。
使用共享存備器( shared memory)收集数据
Thread[idx*pitch+]i1 FMi[e(idx, idy)]=( shared double)
4039
result:
End for
x烂
2.0358
(2)算法结束
1.772
43识别分类算法DCL
识别分类算法DCL如下
(1)Fori1 To nxn do(并行地)
在 Device的共享内存内初始化分类结果cr
数字m
(2) shared double cr=0;
图21000次识别输出“相似度”的标准方差
(3)索引数据位置, blockED= blockAde.x
(4)按照式(S)执行分类;
23431423.44123.11689271323.21528
(5)调用4.2节算法数据收集
(6使用式(1)的激活函数对神经元的输出幅度进行调整;
5
End For
CPU
(7)数据返回用户区
∽Q进
(8)算法结束
0.3894603992
0.334717
0.393340.389
5对比实验
测试在 nVidiA GeForce GTX280上进行,版载仝局内存
100
1000
为l〔iB。此(iPU搭载在配备了 Intel core284003.0Gil的
次数n/次
PC机上。
图3n次识别的平均浮点迳算能力比较
为了使实验结果具有可比性,使用MNST0手仔数字字
符库和自建库分别在CPU上和GPU上进行了比较。实验使
6结束语
用 Mike o neil采用 MNIST库的训练方法得到的权重数据来
卷积神经网络虽然拓扑结构简单,但仍然需要巨大计算
进行。结果显示,自建库和 MNIST库的准确率分别在93%
量。 NVIDIA的GPU凭借基于流处理器的硬件架构,在CUDA
和95%左右,如表2所示。
编程模型的支持下对基于卷积神经网络的手写识别性能提升
明显,相对于CPU发挥出了惊人的优势,实验表明流处理器
表2数字识别检测绪果
架构适合卷积神经网络。然而,由于在输入比较大的情况下,
图像数
正确检测数
正检率%)
介于设备数据传输带宽的限制,可能会成为流处理器的一个
MNIST
10000
9450
9620
瓶颈,进一步地提高流处理器的利用率、合理地调度和分配
935
数据能更好地优化神经网络的各种应用。
自建库
1000
941
在计算精度上,CUDA技术和面向x86架构CPU的高级
参考文献
语言在技术处理上有所不同。在CPU中,目前大多数高级语
1] Zhang Ying, Yang Xuejun, Wang Guibin, et al. Scientific Computing
言(包括C)都按照IFIE-754标准来规定浮点数的存储格式。
Applications on a Strcam Processor[C]!/Proc. of IEEE Int'I Symp
在CUDA中,计算设备也遵循单精度的二进制浮点数
on Performance Analysis of Systems and Software. Austin, Texas
IEEE-754标准,不同的是(此处仅部分列举,具体见文献[4])
USA:[s.n.],2008:105-114
(1)加法和乘法通常被合并成一个乘加指令(FMAD);
[2] Luebke D. CUDA: Scalable Parallel Programming for High
(2)除法通过卡标准兼容的倒数实现;
performancc Scicntific Computing[c]/proc. of the 5th IEEE Int'l
(3)平方根通过非标准兼容的平方根倒数实现;
Symp. on Biomedical Imaging: From Nano to Macro. Paris, France
ls.nJ,2008
(4)不支持直接舍入到正负无穷
3]田文,徐帆,王宏远,等.基于CUDA的尺度不变特征变换
(5)没有动态配置的舍入模式;
忺速算法[J.计算机工程,2010,36(8):219-221.
6)没有浮点异常的监测机制,浮点异常总是被记录的;
L4] NVIDIA Corporation. NVIDIA CUDA CoIlpule Unified Device
(7)一个操作的结果包含一个或多个NaN,NaN的位模式
rchitectureProgrammingGuide2.0[eb/ol].(2008-06-07).http:/
是0x7FFFF
developer. download. nvidia comn/compute/cuda/2 O/dOCS/NVIDIA
GPU和CPU最后输出的手写数字相对于0~9数字的相
CUDA Programming Guidc 2.0. pdf
似度有徵小误差,由图2可以看到各个数字在CPU和GPU
[5] Lawrence S, Giles C L, Tsoi A C Convolutional Neural Networks
上1000次识别输出的相似度的标准方差的数量级都在107,
for Face Recognition[C]/proc. of IEEE Computer Society
计算误差足够小,而且识别正确与否取决于各个数字相似度
Conference un CVPR. San Francisco, California, USA: [s n], 1996
之间差值程度,所以GPL上认别检测正确率与CPU的完全
217
相同,而速度上却要相差2个数量级。图3为此应用在CPU[6]肖柏旭,张丽静基于分流抑制机制的卷积神经网络人脸检测
和GPU的浮点运算能力的比较,GPU和CPU的平均浮点运
法[J计算机应用、2006,26(z1):46-48.
算能力峰值相差最高达到60倍左右,随着识別次数的增加
编辑仁吉慧
181
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.