公共文化服务平台

共 7 条记录，以下是 1-7

全选清除导出

排序方式：

一种卷积神经网络硬件加速方法: 本发明公开了一种卷积神经网络硬件加速方法，方法步骤包括：1)将卷积层运算转换为m行K列的矩阵A、K行n列的矩阵B的矩阵乘；2)将矩阵结果C分为m行n列个矩阵子块；3)启动矩阵乘法器预取矩阵子块的操作数；4)矩阵乘法器执行...; 文梅乔寓然杨乾明沈俊忠肖涛王自伟张春元苏华友陈照云; 文献传递

Caffe应用在主从式加速器上的内存管理与性能优化: 深度学习近年来在各方面都取得了突破性的进展，如语音识别、图像分类等。而卷积神经网络作为第一个成功训练的多层网络，更是被广泛应用。但是由于CNN的特殊计算模式，使得一般的通用处理器对CNN的实现效率不高且不能满足其性能要求...; 肖涛; 关键词：网络加速器内存共享数据一致性; 文献传递

一种支持优化分块策略的矩阵乘加速器设计被引量：4: 2016年; 在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。; 沈俊忠肖涛乔寓然杨乾明文梅; 关键词：FPGA 矩阵乘法分块策略

一种支持可变分块的矩阵乘加速方法: 本发明公开了一种支持可变分块的矩阵乘加速方法，步骤包括：输入矩阵A和矩阵B，根据矩阵A和矩阵B的规模确定子块大小Si，将矩阵A以规模为Si*N的子块为单位进行按行分块，将矩阵B...; 文梅沈俊忠乔寓然杨乾明苏华友肖涛陈照云张春元

一种支持可变分块的矩阵乘加速方法: 本发明公开了一种支持可变分块的矩阵乘加速方法，步骤包括：输入矩阵A和矩阵B，根据矩阵A和矩阵B的规模确定矩阵A被按行划分的行数Si，将矩阵A以规模为Si*N的子块为单位进行按行...; 文梅沈俊忠乔寓然杨乾明苏华友肖涛陈照云张春元; 文献传递

基于SoC FPGA的统一虚拟内存支持: 对于计算密集型任务，基于SoC FPGA的硬件加速器和CPU的协同工作在性能和能效上提供了显著的优势.但是，目前操作系统对各种不同功能的加速器提供的支持很少：操作系统对CPU和加速器在内存上共享的数据没有提供有效管理，如...; 肖涛沈俊忠乔寓然杨乾明文梅罗莉; 关键词：内存管理

一种卷积神经网络硬件加速方法及其AXI总线IP核: 本发明公开了一种卷积神经网络硬件加速方法及其AXI总线IP核，方法步骤包括：1)将卷积层运算转换为m行K列的矩阵A、K行n列的矩阵B的矩阵乘；2)将矩阵结果C分为m行n列个矩阵子块；3)启动矩阵乘法器预取矩阵子块的操作数...; 文梅乔寓然杨乾明沈俊忠肖涛王自伟张春元苏华友陈照云; 文献传递

全选清除导出

共1页<1>

肖涛