您的位置: 专家智库 > >

肖涛

作品数:7 被引量:4H指数:1
供职机构:国防科学技术大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 4篇专利
  • 1篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 4篇自动化与计算...
  • 1篇电子电信

主题

  • 4篇主存
  • 4篇网络
  • 4篇加速器
  • 3篇矩阵
  • 3篇矩阵乘
  • 2篇硬件
  • 2篇神经网
  • 2篇神经网络
  • 2篇通信开销
  • 2篇描述符
  • 2篇内存
  • 2篇内存管理
  • 2篇卷积
  • 2篇卷积神经网络
  • 2篇开销
  • 2篇非均匀
  • 2篇分块
  • 2篇FPGA
  • 1篇虚拟内存
  • 1篇一致性

机构

  • 7篇国防科学技术...

作者

  • 7篇肖涛
  • 6篇杨乾明
  • 6篇文梅
  • 6篇乔寓然
  • 6篇沈俊忠
  • 4篇张春元
  • 4篇苏华友
  • 2篇王自伟
  • 1篇罗莉

传媒

  • 1篇计算机工程与...

年份

  • 1篇2018
  • 1篇2017
  • 1篇2016
  • 4篇2015
7 条 记 录,以下是 1-7
排序方式:
一种卷积神经网络硬件加速方法
本发明公开了一种卷积神经网络硬件加速方法,方法步骤包括:1)将卷积层运算转换为m行K列的矩阵A、K行n列的矩阵B的矩阵乘;2)将矩阵结果C分为m行n列个矩阵子块;3)启动矩阵乘法器预取矩阵子块的操作数;4)矩阵乘法器执行...
文梅乔寓然杨乾明沈俊忠肖涛王自伟张春元苏华友陈照云
文献传递
Caffe应用在主从式加速器上的内存管理与性能优化
深度学习近年来在各方面都取得了突破性的进展,如语音识别、图像分类等。而卷积神经网络作为第一个成功训练的多层网络,更是被广泛应用。但是由于CNN的特殊计算模式,使得一般的通用处理器对CNN的实现效率不高且不能满足其性能要求...
肖涛
关键词:网络加速器内存共享数据一致性
文献传递
一种支持优化分块策略的矩阵乘加速器设计被引量:4
2016年
在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。
沈俊忠肖涛乔寓然杨乾明文梅
关键词:FPGA矩阵乘法分块策略
一种支持可变分块的矩阵乘加速方法
本发明公开了一种支持可变分块的矩阵乘加速方法,步骤包括:输入矩阵A和矩阵B,根据矩阵A和矩阵B的规模确定子块大小S<Sub>i</Sub>,将矩阵A以规模为S<Sub>i</Sub>*N的子块为单位进行按行分块,将矩阵B...
文梅沈俊忠乔寓然杨乾明苏华友肖涛陈照云张春元
一种支持可变分块的矩阵乘加速方法
本发明公开了一种支持可变分块的矩阵乘加速方法,步骤包括:输入矩阵A和矩阵B,根据矩阵A和矩阵B的规模确定矩阵A被按行划分的行数S<Sub>i</Sub>,将矩阵A以规模为S<Sub>i</Sub>*N的子块为单位进行按行...
文梅沈俊忠乔寓然杨乾明苏华友肖涛陈照云张春元
文献传递
基于SoC FPGA的统一虚拟内存支持
对于计算密集型任务,基于SoC FPGA的硬件加速器和CPU的协同工作在性能和能效上提供了显著的优势.但是,目前操作系统对各种不同功能的加速器提供的支持很少:操作系统对CPU和加速器在内存上共享的数据没有提供有效管理,如...
肖涛沈俊忠乔寓然杨乾明文梅罗莉
关键词:内存管理
一种卷积神经网络硬件加速方法及其AXI总线IP核
本发明公开了一种卷积神经网络硬件加速方法及其AXI总线IP核,方法步骤包括:1)将卷积层运算转换为m行K列的矩阵A、K行n列的矩阵B的矩阵乘;2)将矩阵结果C分为m行n列个矩阵子块;3)启动矩阵乘法器预取矩阵子块的操作数...
文梅乔寓然杨乾明沈俊忠肖涛王自伟张春元苏华友陈照云
文献传递
共1页<1>
聚类工具0