文件名称:
ARM嵌入式系统的DNN性能优化.pdf
开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2019-09-04
详细说明:I+计算
•深度学习
•服务器+嵌入式终端
•框架:PerfNet(基于mxnet)
•性能库:PerfDNN
•x86,ARM,POWER
•支持低精度
•PerfCV
•基本CV类功能(cvt_color,resize…)
•OpenBLASAR嵌入式系统的DN性能优化
BOTO
2016中国大数据技术大会
Big Data Technology Conference 2016
CAR PERSONI JANMALI
Deep learning
大数据+大计算
Alexnet
Conv layer>BLAS
FC layer→>BLAS
GPU Forward Time Distribution
CPU Forward Time Distribution
fc7
conV
6
cony
fc6
169%
69%26%
conV
196%
1956%
18%
177%
relet
94%
c05
07%
1%
177%
p00m4
147%
po
14.7%
c04
conV conV
norm1
178%
219
21.9%18:7%
rely
pool2 norm2
conV
02%
07%06%
18:7%
237%
237%
178%
norm2
rely
178%
04%
AR嵌入式系统的DN性能优化
BOTO
2016中国大数据技术大会
Big Data Technology Conference 2016
什么是BLAS
Basic linear algebra Subprograms
基本线性代数子程序
BLAs3级:矩阵矩阵
BAs2级:矩阵向量
BAs1级:向量·向量
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
OpenBLaS
2011, forked from Goto BLAS2
全球最好的开源矩阵计算库
2056中国计算机学会科技进步二等奖
进入主流inu发行版
进入meHc套件
中国计算机7
C学技二等要
doro
openblas package
ablAS
奖
彭峰(北京)科技有限
主人:郏民
Pil /HENG Weimin
这家赞助
debian
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
OpenBLaS
·支持主流CPU处理器
Intel. AMD
ARM. AArch64
Ms龙芯
BM POWER
·支持常见操作系统
Windows
FreeBSD
Android
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
0meAS用户
dmlc
la GNU octave
manet Caffe
RM②mDA
Temple你
Pathscale
HA引团一
High Performance Compilers
Q蛾4
\1931/
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
emS能
Intel Sandy bridg
DGEMM Benchmark (single-threaded
Performance(GFlop/s)vs. matrix size(A/=1000, N '=00, K =614.80,.381)
28
Scalar peak performance
OpenBLAS (Sandy Bridge)
26
Intel MKL 11.0
22
20
OpenBLAS (Nehalem
Reference
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
emS能
龙芯3A
…4……………图…
E GotobLAS
1200
你…··*·“···
個AAs
区AS
………………………图…
600
..,
00
200
N
x×z22x
Nn
Level 3 blas functions
Figure 11. Multi-threaded Level 3 BLAS Performance(NP-4)
AR嵌入式系统的DN性能优化
BDTC 2016
2016中国大数据技术大会
ata Technology Conference 2016
GEM矩阵乘法
C MXN
A: MxK
B: KXN
简单实现:j三重循环6(i
forj=0; N, ++
提高cahe用率
for(k=0; kk; k++)
怎么分块
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.