开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2011-10-15
详细说明: 目 录 第 1 章 简介 1 1.1 CUDA:可伸缩并行编程模型 1 1.2 GPU:高度并行化、多线程、多核处理器 1 1.3 文档结构 3 第2章 编程模型 4 2.1 线程层次结构 4 2.2 存储器层次结构 6 2.3 主机和设备 6 2.4 软件栈 7 2.5 计算能力 8 第 3 章 GPU 实现 9 3.1 具有芯片共享存储器的一组 SIMT 多处理器 9 3.2 多个设备 11 3.3 模式切换 11 第 4 章 应用程序编程接口 12 4.1 C 编程语言的扩展 12 4.2 语言扩展 12 4.2.1 函数类型限定符 12 4.2.1.1 _device_ 12 4.2.1.2 _global_ 13 4.2.1.3 _host_ 13 4.2.1.4 限制 13 4.2.2 变量类型限定符 13 4.2.2.1 _device_ 13 4.2.2.2 _constant_ 13 4.2.2.3 _shared_ 14 4.2.2.4 限制 14 4.2.3 执行配置 15 4.2.4 内置变量 15 4.2.4.1 gridDim 15 4.2.4.2 blockIdx 15 4.2.4.3 blockDim 15 4.2.4.4 threadIdx 15 4.2.4.5 warpSize 16 4.2.4.6 限制 16 4.2.5 使用 NVCC 进行编译 16 4.2.5.1 _noinline_ 16 4.2.5.2 #pragma unroll 16 4.3 通用运行时组件 17 4.3.1 内置向量类型 17 4.3.1.1 char1、uchar1、char2、uchar2、char3、uchar3、char4、uchar4、short1、ushort1、short2、ushort2、short3、ushort3、short4、ushort4、int1、uint1、int2、uint2、int3、uint3、int4、uint4、long1、ulong1、long2、ulong2、long3、ulong3、long4、ulong4、float1、float2、float3、float4、double2 17 4.3.1.2 dim3 类型 17 4.3.2 数学函数 17 4.3.3 计时函数 17 4.3.4 纹理类型 18 4.3.4.1 纹理参考声明 18 4.3.4.2 运行时纹理参考属性 18 4.3.4.3 来自线性存储器的纹理与来自 CUDA 数组的纹理 19 4.4 设备运行时组件 19 4.4.1 数学函数 19 4.4.2 同步函数 19 4.4.3 纹理函数 19 4.4.3.1 来自线性存储器的纹理 19 4.4.3.2 来自 CUDA 数组的纹理 20 4.4.4 原子函数 20 4.4.5 warp vote 函数 20 4.5 主机运行时组件 21 4.5.1 一般概念 21 4.5.1.1 设备 21 4.5.1.2 存储器 22 4.5.1.3 OpenGL 互操作性 22 4.5.1.4 Direct3D 互操作性 22 4.5.1.5 异步并发执行 22 4.5.2 运行时 API 23 4.5.2.1 初始化 23 4.5.2.2 设备管理 23 4.5.2.3 存储器管理 24 4.5.2.4 流管理 25 4.5.2.5 事件管理 25 4.5.2.6 纹理参考管理 25 4.5.2.7 OpenGL 互操作性 27 4.5.2.8 Direct3D 互操作性 27 4.5.2.9 使用设备模拟模式进行调试 28 4.5.3 驱动程序 API 29 4.5.3.1 初始化 29 4.5.3.2 设备管理 29 4.5.3.3 上下文管理 29 4.5.3.4 模块管理 30 4.5.3.5 执行控制 30 4.5.3.6 存储器管理 31 4.5.3.7 流管理 32 4.5.3.8 事件管理 32 4.5.3.9 纹理参考管理 33 4.5.3.10 OpenGL 互操作性 33 4.5.3.11 Direct3D 互操作性 33 第 5 章 性能指南 35 5.1 指令性能 35 5.1.1 指令吞吐量 35 5.1.1.1 数学指令 35 5.1.1.2 控制流指令 36 5.1.1.3 存储器指令 36 5.1.1.4 同步指令 37 5.1.2 存储器带宽 37 5.1.2.1 全局存储器 37 5.1.2.2 本地存储器 43 5.1.2.3 固定存储器 43 5.1.2.4 纹理存储器 43 5.1.2.5 共享存储器 43 5.1.2.6 寄存器 48 5.2 每个块的线程数量 49 5.3 主机和设备间的数据传输 49 5.4 纹理获取与全局或固定存储器读取的对比 50 5.5 整体性能优化战略 50 第 6 章 矩阵乘法示例 52 6.1 概述 52 6.2 源代码清单 53 6.3 源代码说明 54 6.3.1 Mul() 54 6.3.2 Muld() 54 附录 A 技术规范 56 A.1 一般规范 56 A.1.1 计算能力 1.0 的规范 56 A.1.2 计算能力 1.1 的规范 57 A.1.3 计算能力 1.2 的规范 57 A.1.4 计算能力 1.3 的规范 57 A.2 浮点标准 57 附录 B 标准数学函数 59 B.1 一般运行时组件 59 B.1.1 单精度浮点函数 59 B.1.2 双精度浮点函数 60 B.1.3 整型函数 62 B.2 设备运行时组件 62 B.2.1 单精度浮点函数 62 B.2.2 双精度浮点函数 63 B.2.3 整型函数 64 附录 C 原子函数 65 C.1 数学函数 65 C.1.1 atomicAdd() 65 C.1.2 atomicSub() 65 C.1.3 atomicExch() 65 C.1.4 atomicMin() 65 C.1.5 atomicMax() 66 C.1.6 atomicInc() 66 C.1.7 atomicDec() 66 C.1.8 atomicCAS() 66 C.2 位逻辑函数 66 C.2.1 atomicAnd() 66 C.2.2 atomicOr() 67 C.2.3 atomicXor() 67 附录 D 纹理获取 68 D.1 最近点取样 68 D.2 线性过滤 69 D.3 表查找 69 ...展开收缩
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.