您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于以太网的多FPGA矩阵乘法并行计算系统设计

  2. :在过程控制、图像处理等应用领域中需要用到大量的矩阵乘法操作,并且矩阵乘法的计算性能是系统性能的关键因 素。本文设计了一个基于以太网的双精度浮点矩阵乘法并行计算系统,并在K(1()S KUV 8(/5*SB66 V/-开发平台上进行了原型验 证。系统中主机负责将计算任务分配及将计算数据发送给计算单元。当多个计算单元需要相同的数据进行计算时,主机采用 广播方式将数据发送所有单元,有效降低了系统的通信开销。计算单元中采用的矩阵乘法器针对稀疏矩阵乘法进行了优化,能 够避免零元素块参与计算而提高系统性
  3. 所属分类:硬件开发

    • 发布日期:2009-08-20
    • 文件大小:256000
    • 提供者:yang0901
  1. 高性能并行计算的分析

  2. 并 行计算的基本概念,并行算法的基本类型及设计技术;矩阵并行计算问题, 重点介绍并行矩阵乘法,线性代数方程组并行求解方法,代数特征值问题 的并行求解,经典迭代算法的并行化;并行程序设计技术,介绍并行程序 的特点和实现技术;并行实现环境MPI,介绍MPI 过程管理函数,掌 握用MPI 编写并行程序的方法;MPI 点对点通讯函数,全局通讯函数, 全局操作函数,进程组的操作;并行程序实现实例,剖析矩阵并行乘法的 实现和求解方程组的实现。 3. 基础知识:FORTRAN/C 语言,计算方法。
  3. 所属分类:其它

    • 发布日期:2009-11-16
    • 文件大小:1048576
    • 提供者:fanxin1000
  1. 高性能并行计算 迟学斌

  2. 迟学斌中国科学院计算机网络信息中心 介绍并行计算机的发展,当今并行计算机的主流发展方向;并 行计算的基本概念,并行算法的基本类型及设计技术;矩阵并行计算问题, 重点介绍并行矩阵乘法,线性代数方程组并行求解方法,代数特征值问题 的并行求解,经典迭代算法的并行化;并行程序设计技术,介绍并行程序 的特点和实现技术;并行实现环境MPI,介绍MPI 过程管理函数,掌 握用MPI 编写并行程序的方法;MPI 点对点通讯函数,全局通讯函数, 全局操作函数,进程组的操作;并行程序实现实例,剖析矩阵并行乘法的
  3. 所属分类:其它

    • 发布日期:2010-02-06
    • 文件大小:1048576
    • 提供者:songfu1983
  1. blackfin 6X6矩阵乘法程序优化终极版-始终300

  2. 汇编语言编写的给予BF535完成6X6矩阵相成A*B+C*D的程序设计,及其优化,分布式优化,从算法,并行,存储分块,数据调用等方面进行优化设计,最终优化结果为300个时钟。将近完美,另外提示更好做法——在一个子程序中完成两次矩阵相成,时钟数还会有所减少,不过方法不得当会还不如本实验结果。
  3. 所属分类:C

    • 发布日期:2010-05-19
    • 文件大小:205824
    • 提供者:xueyou521
  1. blackfin六维矩阵相乘优化(汇编程序编写)

  2. 实验要求: 参考例程中的Optimazation文件夹中的方法,把实验二中的矩阵相乘程序优化(E=A*B+C*D) 例程中的Optimazation的说明: Optimazation 优化过程  未经优化的C语言程序:C program - Un Optimzied  使用汇编语言优化程序 :Asm program Un Optimized  使用硬件循环优化程序: Hardware Loop  利用两个乘法累加器优化程序 :using 2 MAC operation  利用并行指令
  3. 所属分类:硬件开发

    • 发布日期:2010-05-22
    • 文件大小:15360
    • 提供者:dengxihai123
  1. 矩阵乘法的并行实现-summa算法

  2. 并行实现矩阵乘法,summa算法,并行更高效~并行实现矩阵乘法,summa算法,并行更高效~
  3. 所属分类:C

    • 发布日期:2011-12-01
    • 文件大小:87040
    • 提供者:charles0k
  1. 使用Win32 API的相关知识实现矩阵的乘法运算

  2. 使用Win32 API的相关知识实现矩阵的乘法运算,使用C++编写的并行实现矩阵的乘法运算
  3. 所属分类:C/C++

    • 发布日期:2012-03-26
    • 文件大小:1024
    • 提供者:joe520ma
  1. CUDA矩阵操作

  2. 用CUDA封装的一个并行实现的矩阵操作库,包括按列/行求和求最大值,矩阵乘法,转置等,需要CUDA3.2及以上的设备支持
  3. 所属分类:C++

    • 发布日期:2012-12-04
    • 文件大小:59392
    • 提供者:comyang
  1. 并行处理实验报告:基于MPI实现的矩阵乘法的性能分析

  2. 并行处理实验报告:基于MPI实现的矩阵乘法的性能分析。里面包含MPI实现代码,稠密矩阵以及稀疏矩阵的加速比分析
  3. 所属分类:C++

    • 发布日期:2014-01-12
    • 文件大小:114688
    • 提供者:cz2009022107
  1. Cannon乘法的MPI实现

  2. cannon算法是矩阵的并行乘法,属于数值并行算法MPI编程实现一篇,其中关于数值并行算法MPI编程由于要处理的数据量巨大,程序循环次数多,对于串行而言,处理时间将非常长,将其并行化非常必要。
  3. 所属分类:专业指导

    • 发布日期:2014-07-25
    • 文件大小:1048576
    • 提供者:nihate
  1. GPU并行加速矩阵乘法

  2. GPU并行加速矩阵乘法,有详细的程序、结果及分析
  3. 所属分类:C/C++

    • 发布日期:2014-12-01
    • 文件大小:793600
    • 提供者:woshifengsenlin
  1. 计算机结构并行化程序的替代方法的研究.pdf

  2. 本文提出了一种并行化程序的替代方法,比实际操作系统的基于API的方法(如OpenMP和MPI)更适合于多核处理器。该方法依赖于并行化硬件和适应的编程风格。它释放并捕获了构造级并行(ILP)。提出了一种多核设计,其中核是多线程的,并且能够分叉新线程。编程风格基于功能。硬件在每个函数调用时创建一个并发线程。编程风格和硬件创造了释放ILP的条件,通过消除calland之间的体系结构依赖性以及返回后的延续。我们说明了总和减少,矩阵乘法和排序的方法。我们测量并行运行的ILP,并表明它足够高,可以提供数千
  3. 所属分类:其它

    • 发布日期:2019-07-23
    • 文件大小:2097152
    • 提供者:weixin_39840588
  1. Java 串行、并行算法 矩阵乘法

  2. 分别使用串行、并行方法计算矩阵乘法,对比两者的执行时间
  3. 所属分类:Java

    • 发布日期:2019-10-12
    • 文件大小:7168
    • 提供者:qq331334517
  1. 一种极低IO带宽需求的大维度矩阵链式矩阵乘法器设计

  2. 大维度矩阵乘法常采用子矩阵分块法实现,子矩阵的最大规模决定了整个矩阵乘法执行速度。针对经典脉动结构直接处理的矩阵规模受IO带宽限制严重的问题,提出了一种极低IO带宽需求的大维度矩阵链式乘法器结构,并完成了硬件设计实现与性能验证工作。主要工作如下:(1)优化了矩阵乘法的数据组织,实现输入矩阵规模与IO带宽无关,能够最大限度地利用器件内部逻辑和存储资源;(2)根据优化后数据组织形式设计了链式乘法器硬件,实现源数据计算和传输重叠操作;(3)增强乘法器对矩阵规模的适应性,所设计的链式乘法器可实时配置为多
  3. 所属分类:其它

    • 发布日期:2020-10-15
    • 文件大小:797696
    • 提供者:weixin_38674616
  1. Pytorch 高效使用GPU的操作

  2. 前言 深度学习涉及很多向量或多矩阵运算,如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的形式,无须写成循环运算。然而,在单核CPU上执行时,矩阵运算会被展开成循环的形式,本质上还是串行执行。GPU(Graphic Process Units,图形处理器)的众核体系结构包含几千个流处理器,可将矩阵运算并行化执行,大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构,面向通用计算的GPU已成为加速可并
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:151552
    • 提供者:weixin_38611230
  1. 在Sunway TaihuLight上优化基于CSR的分区SpGEMM

  2. 通用稀疏矩阵-稀疏矩阵(SpGEMM)乘法是许多应用程序中的基本内核之一。 为了充分利用SpGEMM的Sunway TaihuLight超级计算机强大的计算能力,本文设计了基于CSR.SpGEMM的分区方法和并行化,使其与Sunway体系结构很好地匹配。 此外,本文基于基于CSR的SpGEMM的浮点计算的分布优化了分区方法,以实现负载平衡,并提高了Sunway的性能。 我们分别分析了Sunway上基于并行CSR的SpGEMM和优化的基于CSR的SpGEMM的性能,包括内存占用量和执行时间。 实验
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:262144
    • 提供者:weixin_38730767
  1. 基于图形处理单元的并行加权K均值聚类算法

  2. 在本文中,我们考虑了对大型数据集进行聚类的问题。 特别是,我们提出了一种基于图形处理单元(GPU)的并行加权k均值聚类算法(PW-kmeans),该算法使我们能够利用GPU的并行计算功能来加速传统加权k均值算法的运行过程。 PW-kmeans通过将加权k均值的运算转换为向量或矩阵之间的乘法,加法和逐元素运算的组合来工作。 由于与CPU(Central Processing Unit)相比,GPU在向量和矩阵运算方面具有明显的速度优势,因此我们开发了使用GPU的并行加权k-means聚类算法。实验
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:394240
    • 提供者:weixin_38680308
  1. openMP矩阵乘法-源码

  2. openMP矩阵乘法 这是一个并行的C程序,它根据不同的索引顺序对三个矩阵乘法进行乘积。 使用OpenMP编写代码,以便并行计算矩阵乘法循环。 这是在2019年Spring为罗德学院的并行编程课程编写的。
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:2048
    • 提供者:weixin_42109598
  1. kahypar:KaHyPar(Karlsruhe超图分区)是一个多级超图分区框架,提供了直接的基于k途和递归二等分的分区算法,可计算出高质量的解决方案-源码

  2. 执照 Linux和macOS构建 Windows版本 窝 Zenodo 代码覆盖率 代码质量 覆盖范围扫描 声纳云 问题 目录 什么是超图? 什么是超图分区? 是图的概括,其中每个(超)边(也称为网)可以连接两个以上的顶点。 k向超图分区问题是对众所周知的问题的推广:将顶点集划分为k个有界大小(不超过平均块大小的1 +ε倍)的不相交的块,同时最小化定义在网。 最突出的两个目标函数是切割网和连接性(或λ− 1)度量。 切割网是图形划分中边缘切割目标的直接概括(即,将连接多个块的那些网的权重之
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:1014784
    • 提供者:weixin_42174176
  1. 基于Android平台并行运算机制的密码运算加速方案

  2. 研究Android平台中密码运算加速方法,采用运算并行化的思想,利用Android平台的Renderscr ipt并行运算机制实现大整数乘法运算,为椭圆曲线密码等密码运算提供高效快速的基本操作。设计并实现了适合并行处理的大整数乘法运算存储结构和运算执行逻辑,以矩阵的方式分割并处理大整数对象,可以一次同步完成所需的乘法和加法运算,进而得到最终运算结果。实验结果表明,与Android平台原生的Java大整数运算库相比,该方法在执行时间上具有明显优势。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:619520
    • 提供者:weixin_38614417
« 12 3 »