搜索资源 - cublas - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - cublas

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

CUDA 2.2 for WINDOWS 所有技术文档
包含如下文件 CUDA 2.2 Quickstart Guide CUDA 2.2 Programming Guide CUDA 2.2 Reference Manual CUDA 2.2 Toolkit Release Notes CUDA 2.2.1 SDK Release Notes CUDA Visual Profiler v1.2 Readme Documentation for CUDA BLAS (CUBLAS) Library Documentation for CUDA F
所属分类：其它
- 发布日期：2009-08-22
- 文件大小：5242880
- 提供者：yinkangxue

blas函数库简表
blas库功能表简表另外 cublas函数用法基本相同，
所属分类：C/C++
- 发布日期：2012-10-14
- 文件大小：15360
- 提供者：yzt3519801

CUBLAS_Library
对最近版的cuda CUBLAS库函数进行详细介绍
所属分类：其它
- 发布日期：2012-11-20
- 文件大小：949248
- 提供者：xingkongkaixin

基于CUDA的矩阵乘法和FFT性能测试
对NVIDIA公司的CUDA技术用Geforce8800GT在VisualStudi02008环境下进行测试，从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFFW库与CUFFF库运行响应的差异。测试结果表明，在大规模矩阵乘法和快速傅里叶变换的应用方面，相对于CPU，利用GPU运算性能可提高25倍以上。
所属分类：专业指导
- 发布日期：2013-06-08
- 文件大小：434176
- 提供者：xiaoxio006

CUBLAS_Library.pdf
CUBLAS_Library.pdf
所属分类：C
- 发布日期：2015-08-05
- 文件大小：2097152
- 提供者：shao1505

cublassGemm.cu
一份小的CUDA cublasgemm测试代码，主要是为了摸索cublas的麻烦的参数传递
所属分类：其它
- 发布日期：2015-12-16
- 文件大小：2048
- 提供者：jefferypista

Matrix computations on the GPU CUBLAS and MAGMA by example
recommend by NVIDIA, lots of examples included.
所属分类：C++
- 发布日期：2016-08-12
- 文件大小：2097152
- 提供者：yangjishuo

CUBLAS文档
CUBLAS文档，帮助文档，使用于Caffe
所属分类：C++
- 发布日期：2017-03-14
- 文件大小：2097152
- 提供者：windfly_al

CUBLAS库文档
CUDA的BLAS库文档，该库用汇编语言编写优化，速度非常快
所属分类：硬件开发
- 发布日期：2018-09-14
- 文件大小：2097152
- 提供者：weixin_43201401

CuPy Documentation
CuPy is an implementation of NumPy-compatible multi-dimensional array on CUDA. CuPy consists of cupy. ndarray, the core multi-dimensional array class, and many functions on it. It supports a subset of numpy. ndarray interface. The following is a b
所属分类：深度学习
- 发布日期：2020-04-15
- 文件大小：1048576
- 提供者：wang_quan

CUBLAS_Library.pdf
cuda9.0里面的cublas文档，对于cuda开发从业人士非常必要基础的一本小册子，不可错过Chapter 1 INTRODUCTION The cuBlaS library is an implementation of BLAS(Basic Linear Algebra Subprograms on top of the NvIDIACUDA runtime It allows the user to access the computational resources of NVIDI
所属分类：深度学习
- 发布日期：2019-10-08
- 文件大小：2097152
- 提供者：baiyu33

寒武纪 AI 指令集论文
寒武纪发布在ISCA 2016上的一篇论文，设计了一个通用的神经网络指令集；Table i. an overview to cambricon instructions Instruction Type Examples Operands Control jump, conditional branch register (scalar value), immediate Matrix matrix load/store/move register (matrix address/size, s
所属分类：深度学习
- 发布日期：2019-03-02
- 文件大小：856064
- 提供者：u011831874

pytorch_block_sparse:用于Pytorch的快速块稀疏矩阵-源码
用于Pytorch的快速块稀疏矩阵这个PyTorch扩展使用块稀疏矩阵而不是密集矩阵来替代torch.nn.Linear。由于您可以用稀疏矩阵直接替换模型中的线性层，因此可以非常轻松地进行稀疏矩阵实验。动机该库的目的是表明稀疏矩阵可用于神经网络，而不是密集网络，而不会显着改变精度。这是个好消息，因为稀疏矩阵可释放空间和计算方面的节省： 50％的稀疏矩阵将仅使用50％的内存，并且理论上将仅使用50％的计算。在这个库中，与天真的实现相比，我们利用Cutlass来提高CUDA性能。但是，由于
所属分类：其它
- 发布日期：2021-03-18
- 文件大小：976896
- 提供者：weixin_42168902

DeepLearningExamples：深度学习示例-源码
面向Tensor核心的NVIDIA深度学习示例介绍该存储库提供了易于训练和部署的最新深度学习示例，并通过在NVIDIA Volta，Turing和Ampere GPU上运行的NVIDIA CUDA-X软件堆栈实现了最佳的可重复精度和性能。 NVIDIA GPU Cloud（NGC）容器注册表这些示例以及NVIDIA深度学习软件堆栈在NGC容器注册表（）上每月更新的Docker容器中提供。这些容器包括：该存储库中最新的NVIDIA示例 NVIDIA在各自框架的上游共享了最新的贡献
所属分类：其它
- 发布日期：2021-02-28
- 文件大小：65011712
- 提供者：weixin_42136477

ffrnn-源码
用于CConv的FFRNN 第三方 Pybind11 ：不再需要，PyTorch自包含火炬：不再需要，请改用setuptool和virtualenv 没有初始化错误：constexpr => const pybind转换不完整的指针错误：*（this-> value）=> *（（type *）（this-> value））：使用Cmake的setuptool insteas 视窗 cuDNN，-zh cuBlas [ TODO ] 在设备代码中运行cu
所属分类：其它
- 发布日期：2021-02-22
- 文件大小：12288
- 提供者：weixin_42131261

分布式并行计算：SJTU CS433分布式并行计算课程-源码
CS433分布式并行计算课程此仓库包含一些有关 OpenMP的卡达我们的最终项目-优化Caffe 前两个作业很幼稚，但是它们给了我们并行编程的基本感觉，特别是使用CUDA编写内核函数。正如我们的老师所说，编写高性能CUDA内核功能的能力决定了您能否获得满意的报价！而且我们的最终项目非常困难。众所周知，Caffe是最先进的深度学习结构。尽管这些年来tensorflow和pytorch的使用更为频繁，但您必须将Caffe视为一个很棒的结构，以产生自己的深度学习系统，并借助NVIDI
所属分类：其它
- 发布日期：2021-02-20
- 文件大小：2097152
- 提供者：weixin_42116734

tomocam：重建层析成像数据。快点！-源码
在GPU上使用NUFFT的同步加速器层析成像数据的基于模型的迭代重建（MBIR）。依存关系 CUDA（带有cufft和cublas） pybind11 麻木卡姆安装确保已安装CUDA ， cmake和pybind11 。推荐的 pip install virtualenv virtualenv -p /usr/bin/python3 tomocam-venv source tomocam-venv/bin/activate 有或没有virtualenv pip install
所属分类：其它
- 发布日期：2021-02-12
- 文件大小：586752
- 提供者：weixin_42116805

库达-源码
库达该项目已弃用。我讨厌为CUDA编写代码，并且对自己将来的尝试并不感兴趣。我的目标是要了解足够的知识来修改代码以适合我的目的，即神经网络的自定义激活功能。我想做：斐波那契数列摩尔彭罗斯逆（SVD是） [完成-CuPy]普通最小二乘法（OLS） [完成-CuPy]具有l2正则化的OLS 我宁愿跳到更高的抽象水平，我圣诞节想要的只是一个（用户友好的）数学库...就像Java或numpy.linAlg数学numpy.linAlg 我不喜欢cuda线性代数库cuBLAS，所以我
所属分类：其它
- 发布日期：2021-02-08
- 文件大小：10240
- 提供者：weixin_42116921

cuBERT：直接在NVIDIA（CUDA，CUBLAS）和Intel MKL上快速实现BERT推理-源码
直接在NVIDIA（CUDA，CUBLAS）和Intel MKL上快速实现BERT推理直接在NVIDIA（CUDA，CUBLAS）或Intel MKL上进行高度定制和优化的BERT推理，而无需tensorflow及其框架开销。仅支持BERT（变压器）。基准测试环境特斯拉P4 28 * Intel（R）至强（R）CPU E5-2680 v4 2.40GHz Debian GNU / Linux 8（jessie） gcc（Debian 4.9.2-10 + deb8u1）4.
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：156672
- 提供者：weixin_42124743

cutlass：线性代数子例程的CUDA模板-源码
刀尖2.4 CUTLASS 2.4-2020年11月 CUTLASS是CUDA C ++模板抽象的集合，用于在CUDA中的所有级别和规模上实现高性能矩阵乘法（GEMM）。它包含类似于用于实现cuBLAS的分层分解和数据移动策略。 CUTLASS将这些“活动部件”分解为C ++模板类抽象的可重用的模块化软件组件。可以通过自定义切片大小，数据类型和其他算法策略来对这些线程范围，warp范围，block范围和设备范围的原语进行专门化和调整。所产生的灵活性简化了它们在自定义内核和应用程序中作为构
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：15728640
- 提供者：weixin_42150341

« 12 »