您的位置: 专家智库 > >

郝子宇

作品数:86 被引量:22H指数:2
供职机构:江南计算技术研究所更多>>
发文基金:国家科技重大专项国家重点实验室开放基金国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信理学更多>>

文献类型

  • 73篇专利
  • 8篇期刊文章
  • 4篇会议论文

领域

  • 35篇自动化与计算...
  • 2篇电子电信
  • 1篇理学

主题

  • 18篇处理器
  • 15篇网络
  • 14篇通信
  • 12篇计算机
  • 11篇接口
  • 10篇总线
  • 10篇系统总线
  • 10篇服务器
  • 9篇主存
  • 8篇体系结构
  • 8篇可重构
  • 8篇寄存器
  • 7篇阵列
  • 7篇脉动阵
  • 7篇脉动阵列
  • 6篇神经网
  • 6篇神经网络
  • 6篇输入输出
  • 6篇数据交换
  • 6篇内存

机构

  • 85篇江南计算技术...
  • 2篇浙江大学
  • 2篇之江实验室
  • 1篇湖南大学

作者

  • 85篇郝子宇
  • 49篇谢向辉
  • 41篇吴东
  • 41篇钱磊
  • 39篇李宏亮
  • 31篇张昆
  • 29篇原昊
  • 22篇臧春峰
  • 17篇张鲁飞
  • 14篇周浩杰
  • 14篇李玺
  • 14篇胡苏太
  • 13篇过锋
  • 12篇方兴
  • 11篇陈芳园
  • 10篇唐勇
  • 10篇韦海亮
  • 10篇王吉军
  • 9篇邬贵明
  • 9篇郑方

传媒

  • 2篇计算机工程与...
  • 1篇计算机研究与...
  • 1篇计算机学报
  • 1篇计算机应用研...
  • 1篇西安电子科技...
  • 1篇计算机技术与...
  • 1篇中国科学:信...
  • 1篇2009年全...
  • 1篇中国科协第四...

年份

  • 1篇2024
  • 3篇2023
  • 16篇2022
  • 5篇2021
  • 7篇2020
  • 3篇2019
  • 1篇2017
  • 1篇2016
  • 15篇2015
  • 4篇2014
  • 14篇2013
  • 10篇2012
  • 1篇2011
  • 2篇2009
  • 1篇2007
  • 1篇2006
86 条 记 录,以下是 1-10
排序方式:
3D-ACC:基于3D集成电路的卷积神经网络加速结构研究被引量:1
2020年
在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效的卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。
王吉军郝子宇李宏亮
关键词:脉动阵列
一种基于空间坐标的集群网络自动配置及管理方法
本发明提供了一种基于空间坐标的集群网络自动配置及管理方法。将各个节点组卡的控制接口以硬连线方式进行连接,以形成集群网络;通过采用固定编码格式的位置信息编码进行层次的网络地址配置,其中位置信息编码长度是由集群网络中的节点的...
郝子宇谢向辉吴东原昊钱磊臧春峰李玺朱桂明
一种支持融合算子生成的快速代码生成装置
一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定...
王迪王吉军谭弘兵张昆郝子宇
一种支持数据在线重组的DMA访存方法及装置
本发明公开了一种支持数据在线重组的DMA访存方法及装置,涉及数据处理技术领域,包括:DMA引擎收到DMA传输指令时,判断DMA传输指令中是否有数据重组指示,若是则获取数据传输方向以及数据重组参数信息;DMA引擎将收到的D...
张清波施晶晶刘骁唐勇杨萱郝子宇
多核处理器的数据管理方法及装置
一种多核处理器的数据管理方法及装置,所述多核处理器包括处理器核心阵列和处理器核心互连结构,所述处理器核心阵列包括多个处理器核心,所述处理器核心包括具有多个存储单元的核内存储器,所述处理器核心互连结构用于所述处理器核心阵列...
李宏亮郑方谢向辉郝子宇胡苏太唐勇
大型计算系统模拟器分析
大型计算系统的快速发展,对其设计方案的筛选和性能评测更加需要模拟器的支持,而当前针对大型计算系统的模拟器却很少。本文针对大型计算系统模拟器--Bigsim、PARSIM、Parallel BG/L Simulator和B...
郝子宇钱磊李宏亮谢向辉
关键词:模拟器系统设计性能评测
一种面向AI浮点融合运算单元的验证激励产生方法
本发明公开了一种面向AI浮点融合运算单元的验证激励产生方法,该方法包括:针对新型AI浮点融合运算单元进行分析,获取输入操作数数量、输入操作数数据格式、输入操作数数据类型并构建相应参数模型;结合参数模型构造输入操作数之间的...
刘鹏胡文超郝子宇韩晓霞夏冰洁王文李宏亮王芬
一种高效的处理器数据加载装置及方法
本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO...
赵冠一施晶晶吴铁彬郝子宇王之辰谭弘兵陈正博
卷积神经网络训练访存优化被引量:3
2020年
虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。
王吉军郝子宇李宏亮
一种用于脉动阵列的数据调度方法
一种用于脉动阵列的数据调度方法,属于神经网络技术领域。本发明包括:步骤1,令待卷积/待矩阵乘的数据A分布在m个核心上;步骤2,将数据B广播给m个核心,m个核心每轮得到相同的b进行计算;步骤3,当每个核心上的分布式数据A与...
谭弘兵王迪王吉军张昆郝子宇李宏亮
共9页<123456789>
聚类工具0