您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. CUDA 2.2 for WINDOWS 所有技术文档

  2. 包含如下文件 CUDA 2.2 Quickstart Guide CUDA 2.2 Programming Guide CUDA 2.2 Reference Manual CUDA 2.2 Toolkit Release Notes CUDA 2.2.1 SDK Release Notes CUDA Visual Profiler v1.2 Readme Documentation for CUDA BLAS (CUBLAS) Library Documentation for CUDA F
  3. 所属分类:其它

    • 发布日期:2009-08-22
    • 文件大小:5242880
    • 提供者:yinkangxue
  1. blas函数库简表

  2. blas库功能表简表 另外 cublas函数用法基本相同,
  3. 所属分类:C/C++

    • 发布日期:2012-10-14
    • 文件大小:15360
    • 提供者:yzt3519801
  1. CUBLAS_Library

  2. 对最近版的cuda CUBLAS库函数进行详细介绍
  3. 所属分类:其它

    • 发布日期:2012-11-20
    • 文件大小:949248
    • 提供者:xingkongkaixin
  1. 基于CUDA的矩阵乘法和FFT性能测试

  2. 对NVIDIA公司的CUDA技术用Geforce8800GT在VisualStudi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFFW库与CUFFF库运行响应的差异。测试结果表明,在大规模矩 阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。
  3. 所属分类:专业指导

    • 发布日期:2013-06-08
    • 文件大小:434176
    • 提供者:xiaoxio006
  1. CUBLAS_Library.pdf

  2. CUBLAS_Library.pdf
  3. 所属分类:C

    • 发布日期:2015-08-05
    • 文件大小:2097152
    • 提供者:shao1505
  1. cublassGemm.cu

  2. 一份小的CUDA cublasgemm测试代码, 主要是为了摸索cublas的麻烦的参数传递
  3. 所属分类:其它

    • 发布日期:2015-12-16
    • 文件大小:2048
    • 提供者:jefferypista
  1. Matrix computations on the GPU CUBLAS and MAGMA by example

  2. recommend by NVIDIA, lots of examples included.
  3. 所属分类:C++

    • 发布日期:2016-08-12
    • 文件大小:2097152
    • 提供者:yangjishuo
  1. CUBLAS文档

  2. CUBLAS文档,帮助文档,使用于Caffe
  3. 所属分类:C++

    • 发布日期:2017-03-14
    • 文件大小:2097152
    • 提供者:windfly_al
  1. CUBLAS库文档

  2. CUDA的BLAS库文档,该库用汇编语言编写优化,速度非常快
  3. 所属分类:硬件开发

    • 发布日期:2018-09-14
    • 文件大小:2097152
    • 提供者:weixin_43201401
  1. CuPy Documentation

  2. CuPy is an implementation of NumPy-compatible multi-dimensional array on CUDA. CuPy consists of cupy. ndarray, the core multi-dimensional array class, and many functions on it. It supports a subset of numpy. ndarray interface. The following is a b
  3. 所属分类:深度学习

    • 发布日期:2020-04-15
    • 文件大小:1048576
    • 提供者:wang_quan
  1. CUBLAS_Library.pdf

  2. cuda9.0里面的cublas文档,对于cuda开发从业人士非常必要基础的一本小册子,不可错过Chapter 1 INTRODUCTION The cuBlaS library is an implementation of BLAS(Basic Linear Algebra Subprograms on top of the NvIDIACUDA runtime It allows the user to access the computational resources of NVIDI
  3. 所属分类:深度学习

    • 发布日期:2019-10-08
    • 文件大小:2097152
    • 提供者:baiyu33
  1. 寒武纪 AI 指令集 论文

  2. 寒武纪发布在ISCA 2016上的一篇论文,设计了一个通用的神经网络指令集;Table i. an overview to cambricon instructions Instruction Type Examples Operands Control jump, conditional branch register (scalar value), immediate Matrix matrix load/store/move register (matrix address/size, s
  3. 所属分类:深度学习

    • 发布日期:2019-03-02
    • 文件大小:856064
    • 提供者:u011831874
  1. pytorch_block_sparse:用于Pytorch的快速块稀疏矩阵-源码

  2. 用于Pytorch的快速块稀疏矩阵 这个PyTorch扩展使用块稀疏矩阵而不是密集矩阵来替代torch.nn.Linear。 由于您可以用稀疏矩阵直接替换模型中的线性层,因此可以非常轻松地进行稀疏矩阵实验。 动机 该库的目的是表明稀疏矩阵可用于神经网络,而不是密集网络,而不会显着改变精度。 这是个好消息,因为稀疏矩阵可释放空间和计算方面的节省: 50%的稀疏矩阵将仅使用50%的内存,并且理论上将仅使用50%的计算。在这个库中,与天真的实现相比,我们利用Cutlass来提高CUDA性能。但是,由于
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:976896
    • 提供者:weixin_42168902
  1. DeepLearningExamples:深度学习示例-源码

  2. 面向Tensor核心的NVIDIA深度学习示例 介绍 该存储库提供了易于训练和部署的最新深度学习示例,并通过在NVIDIA Volta,Turing和Ampere GPU上运行的NVIDIA CUDA-X软件堆栈实现了最佳的可重复精度和性能。 NVIDIA GPU Cloud(NGC)容器注册表 这些示例以及NVIDIA深度学习软件堆栈在NGC容器注册表( )上每月更新的Docker容器中提供。 这些容器包括: 该存储库中最新的NVIDIA示例 NVIDIA在各自框架的上游共享了最新的贡献
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:65011712
    • 提供者:weixin_42136477
  1. ffrnn-源码

  2. 用于CConv的FFRNN 第三方 Pybind11 :不再需要,PyTorch自包含 火炬 :不再需要,请改用setuptool和virtualenv 没有初始化错误:constexpr => const pybind转换不完整的指针错误:*(this-> value)=> *((type *)(this-> value)) :使用Cmake的setuptool insteas 视窗 cuDNN,-zh cuBlas [ TODO ] 在设备代码中运行cu
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:12288
    • 提供者:weixin_42131261
  1. 分布式并行计算:SJTU CS433分布式并行计算课程-源码

  2. CS433分布式并行计算课程 此仓库包含一些有关 OpenMP的 卡达 我们的最终项目-优化Caffe 前两个作业很幼稚,但是它们给了我们并行编程的基本感觉,特别是使用CUDA编写内核函数。 正如我们的老师所说,编写高性能CUDA内核功能的能力决定了您能否获得满意的报价! 而且我们的最终项目非常困难。 众所周知,Caffe是最先进的深度学习结构。 尽管这些年来tensorflow和pytorch的使用更为频繁,但您必须将Caffe视为一个很棒的结构,以产生自己的深度学习系统,并借助NVIDI
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:2097152
    • 提供者:weixin_42116734
  1. tomocam:重建层析成像数据。 快点!-源码

  2. 在GPU上使用NUFFT的同步加速器层析成像数据的基于模型的迭代重建(MBIR)。 依存关系 CUDA(带有cufft和cublas) pybind11 麻木 卡姆 安装 确保已安装CUDA , cmake和pybind11 。 推荐的 pip install virtualenv virtualenv -p /usr/bin/python3 tomocam-venv source tomocam-venv/bin/activate 有或没有virtualenv pip install
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:586752
    • 提供者:weixin_42116805
  1. 库达-源码

  2. 库达 该项目已弃用。 我讨厌为CUDA编写代码,并且对自己将来的尝试并不感兴趣。 我的目标是要了解足够的知识来修改代码以适合我的目的,即神经网络的自定义激活功能。 我想做: 斐波那契数列 摩尔彭罗斯逆(SVD是) [完成-CuPy]普通最小二乘法(OLS) [完成-CuPy]具有l2正则化的OLS 我宁愿跳到更高的抽象水平,我圣诞节想要的只是一个(用户友好的)数学库...就像Java或numpy.linAlg数学numpy.linAlg 我不喜欢cuda线性代数库cuBLAS,所以我
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:10240
    • 提供者:weixin_42116921
  1. cuBERT:直接在NVIDIA(CUDA,CUBLAS)和Intel MKL上快速实现BERT推理-源码

  2. 直接在NVIDIA(CUDA,CUBLAS)和Intel MKL上快速实现BERT推理 直接在NVIDIA(CUDA,CUBLAS)或Intel MKL上进行高度定制和优化的BERT推理,而无需tensorflow及其框架开销。 仅支持BERT(变压器)。 基准测试 环境 特斯拉P4 28 * Intel(R)至强(R)CPU E5-2680 v4 2.40GHz Debian GNU / Linux 8(jessie) gcc(Debian 4.9.2-10 + deb8u1)4.
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:156672
    • 提供者:weixin_42124743
  1. cutlass:线性代数子例程的CUDA模板-源码

  2. 刀尖2.4 CUTLASS 2.4-2020年11月 CUTLASS是CUDA C ++模板抽象的集合,用于在CUDA中的所有级别和规模上实现高性能矩阵乘法(GEMM)。 它包含类似于用于实现cuBLAS的分层分解和数据移动策略。 CUTLASS将这些“活动部件”分解为C ++模板类抽象的可重用的模块化软件组件。 可以通过自定义切片大小,数据类型和其他算法策略来对这些线程范围,warp范围,block范围和设备范围的原语进行专门化和调整。 所产生的灵活性简化了它们在自定义内核和应用程序中作为构
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:15728640
    • 提供者:weixin_42150341
« 12 »