您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于+CUDA+的概念格并行建格算法研究

  2. 硕士论文 形式概念分析是一种有效的知识表示与知识发现工具,在数据挖掘、知识发现、信息检索等领域得到了广泛的应用。在形式概念分析的应用过程中,首先要构建概念格,因此建格算法的效率显得十分重要。CUDA(Compute Unified Device Architecture)并行计算架构通过利用GPU(Graphic Processing Unit)的多线程并行处理能力,可以大幅度提升计算性能,已经越来越多地应用于通用并行计算。这为解决形式概念分析应用中的建格问题提供了一个新的思路。 本文分析了C
  3. 所属分类:其它

    • 发布日期:2013-07-19
    • 文件大小:1048576
    • 提供者:thinkpadw700ds
  1. cuDNN5(CUDA Deep Neural Network)

  2. cuDNN5。cuDNN(CUDA Deep Neural Network)相比标准的cuda,它在一些常用的神经网络操作上进行了性能的优化,比如卷积,pooling,归一化,以及激活层等等。
  3. 所属分类:深度学习

    • 发布日期:2018-03-06
    • 文件大小:99614720
    • 提供者:qq_30938695
  1. cuDNN6(CUDA Deep Neural Network)

  2. cuDNN6。cuDNN(CUDA Deep Neural Network)相比标准的cuda,它在一些常用的神经网络操作上进行了性能的优化,比如卷积,pooling,归一化,以及激活层等等。
  3. 所属分类:深度学习

    • 发布日期:2018-03-06
    • 文件大小:200278016
    • 提供者:qq_30938695
  1. opencv_v4l2:该项目包含示例OpenCV应用程序代码以及用于访问OpenCV中的摄像头设备的V4L2帮助程序库。 此代码有助于从OpenCV摄像机中获得较高的帧率。 该项目比OpenCV中的VideoCapture类提供更好的结果

  2. OpenCV V4L2 使用OpenCV显示/处理摄像机流时,用于评估摄像机性能的一组应用程序(和帮助程序库)。 OpenCV构建脚本 该存储库还包含一个脚本及其相关文件,这些文件会自动启用具有各种功能和优化标记的OpenCV来进行获取,构建和安装。 该脚本还安装所需的依赖项。 此外,它会根据成功构建的要求自动尝试修补标头。 笔记 该脚本需要在其依赖项可用的同一文件夹中运行。 否则,脚本可能无法正常工作。 该脚本不会自动尝试安装CUDA。 必须手动安装。 对于Jetson主板,可以在找到说明
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:23552
    • 提供者:weixin_42164685
  1. 基于图形处理单元的优化拉普拉斯图像锐化算法

  2. 在经典的拉普拉斯图像锐化中,所有像素都被一一处理,这导致大量的计算。 在CPU上进行传统的拉普拉斯锐化处理非常耗时,特别是对于那些大图片。 在本文中,我们提出了基于Compute Unified Device Architecture(CUDA)(一种图形处理单元(GPU)的计算平台)的Laplacian锐化的并行实现,并分析了图像尺寸对性能的影响以及处理之间的关系。数据传输时间与并行计算时间之间的时间。 此外,根据不同内存的不同特征,开发了一种改进的方法,该方法利用GPU中的共享内存代替全局内
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:1048576
    • 提供者:weixin_38732425
  1. 针对子集和问题的并行两列表算法的GPU实现

  2. 子集和问题是众所周知的非确定性多项式时间完成(NP-complete) 决策问题。 本文提出了一种新颖且有效的并行两列表算法的实现使用Compute Unified Device Architecture解决图形处理单元(GPU)上的问题的方法(CUDA)。 该算法由生成阶段,修剪阶段和搜索阶段组成。 它是在GPU上有效地实现算法的三个阶段并不容易。 取得更好成绩的方法性能,CPU和GPU之间合理的任务分配,有效的GPU内存管理, 并讨论了CPU-GPU通信成本的最小化。 算法的生成阶段采用典型
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:894976
    • 提供者:weixin_38713061
  1. 分布式并行计算:SJTU CS433分布式并行计算课程-源码

  2. CS433分布式并行计算课程 此仓库包含一些有关 OpenMP的 卡达 我们的最终项目-优化Caffe 前两个作业很幼稚,但是它们给了我们并行编程的基本感觉,特别是使用CUDA编写内核函数。 正如我们的老师所说,编写高性能CUDA内核功能的能力决定了您能否获得满意的报价! 而且我们的最终项目非常困难。 众所周知,Caffe是最先进的深度学习结构。 尽管这些年来tensorflow和pytorch的使用更为频繁,但您必须将Caffe视为一个很棒的结构,以产生自己的深度学习系统,并借助NVIDI
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:2097152
    • 提供者:weixin_42116734
  1. CUDA——性能优化(一)

  2. CUDA全局内存的合并访问(个人理解) 每个warp去访问全局内存,会有400-600个时钟周期的内存延迟,这个代价很昂贵,所以为了减少访问全局内存的指令次数,我们将满足字节大小和对齐要求的warp合并起来访问全局内存,从而减少对全局内存的访问次数,提高GPU性能。 关于warp指令基础知识 1)什么是warp? 一个线程warp包括32条线程(我的电脑是1个warp包括32条线程)。它位于多处理器中。 2)warp指令 发射warp的一个指令,即该warp的32条线程一起执行的该条指令。多处理
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:52224
    • 提供者:weixin_38657102
  1. 基于图形处理单元的优化拉普拉斯图像锐化算法

  2. 在经典的拉普拉斯图像锐化中,所有像素都被一一处理,这导致大量的计算。 在CPU上进行传统的拉普拉斯锐化处理非常耗时,特别是对于那些大图片。 在本文中,我们提出了基于Compute Unified Device Architecture(CUDA)(一种图形处理单元(GPU)的计算平台)的Laplacian锐化的并行实现,并分析了图像尺寸对性能的影响以及处理之间的关系。数据传输时间与并行计算时间之间的时间。 此外,根据不同内存的不同特征,开发了一种改进的方法,该方法利用GPU中的共享内存代替全局内
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:393216
    • 提供者:weixin_38549520