您的位置: 专家智库 > >

北京市自然科学基金(4092044)

作品数:7 被引量:31H指数:4
相关作者:范东睿刘志勇宋风龙余磊徐卫志更多>>
相关机构:中国科学院中国科学院研究生院美普思科技有限公司更多>>
发文基金:北京市自然科学基金国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 1篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 4篇核结构
  • 2篇硬件
  • 2篇DSO
  • 2篇GO
  • 2篇处理器
  • 2篇N-
  • 1篇队列
  • 1篇多核
  • 1篇多核并行
  • 1篇隐式
  • 1篇硬件加速
  • 1篇硬件加速器
  • 1篇硬件支持
  • 1篇指令级
  • 1篇指令级并行
  • 1篇上访
  • 1篇数据冲突
  • 1篇体系结构
  • 1篇去块滤波
  • 1篇重放

机构

  • 8篇中国科学院
  • 7篇中国科学院研...
  • 1篇美普思科技有...

作者

  • 6篇范东睿
  • 4篇宋风龙
  • 4篇刘志勇
  • 3篇余磊
  • 2篇徐卫志
  • 2篇马宜科
  • 2篇范灵俊
  • 1篇颜成钢
  • 1篇安述倩
  • 1篇刘磊
  • 1篇王达
  • 1篇张帅
  • 1篇孙凝晖
  • 1篇唐士斌
  • 1篇焦帅
  • 1篇张浩
  • 1篇叶笑春
  • 1篇唐志敏
  • 1篇张军超
  • 1篇李杨

传媒

  • 4篇计算机学报
  • 1篇计算机研究与...
  • 1篇小型微型计算...
  • 1篇系统仿真学报

年份

  • 1篇2012
  • 5篇2011
  • 1篇2010
  • 1篇2009
7 条 记 录,以下是 1-8
排序方式:
H.264去块滤波算法在众核结构上的并行优化被引量:2
2011年
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.
范灵俊颜成钢宋风龙马宜科范东睿
关键词:H.264去块滤波
PartitionSim:一个面向众核结构的并行模拟器被引量:2
2011年
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%.
焦帅徐卫志唐士斌范东睿孙凝晖
LU分解在众核结构仿真器上的指令级调度研究被引量:5
2011年
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。
余磊刘志勇宋风龙叶笑春
关键词:计算机体系结构加速比指令级并行LU分解
众核处理器片上同步机制和评估方法研究被引量:11
2010年
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间.
徐卫志宋风龙刘志勇范东睿余磊张帅
关键词:硬件支持微程序
一种片上众核结构共享Cache动态隐式隔离机制研究被引量:4
2009年
访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.文中基于时钟精准的片上众核结构模拟器,使用Splash2程序组和生物信息学中的任务,对所提机制进行了评估.实验结果表明,与传统共享Cache相比,使用缓存块链接机制时,使得共享Cache的冲突性缺失率降低约20%,而使得IPC平均提高了约10%.
宋风龙刘志勇范东睿张军超余磊
关键词:共享CACHE数据冲突
众核处理器高效片上访存机制研究
日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列...
范灵俊安述倩李杨张浩王达范东睿
关键词:矩阵乘
文献传递
支持多核并行程序确定性重放的高效访存冲突记录方法被引量:5
2012年
多核系统中并行程序执行过程的不确定性给程序调试带来了很大的困难.准确记录初始执行中冲突访存的次序是并行程序确定性重放的基础.提出了通过建立精确happens-before关系记录访存冲突的方法.此方法利用简洁高效的地址冲突检测机制确定冲突访存操作在执行中所处happens-before序关系的位置,可以抑制部分记录信息的产生,从而有效减少记录信息.与其他方式方法相比,可以进一步压缩17%的记录条数.采用逻辑向量时钟描述冲突访存操作间的happens-before关系,与采用标量时钟相比,可以避免happens-before关系的误识,降低重放执行时并行度的损失.
刘磊黄河唐志敏
关键词:多核
混合体系结构中有状态硬件加速器的优化被引量:2
2011年
在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流的状态,并在需要时进行硬件状态切换,从而增加了加速器的性能开销.该文基于请求队列提出对不同网络流的请求进行动态重排序的方法,其中请求所在的队列可以在片上也可以在片外,从而有效减少加速器的状态切换次数.对多种流行的有状态加速器进行的实验结果表明,该方法可以有效降低加速器的平均响应时间并提高吞吐率.实验结果表明:与传统的FIFO设计对比,解压缩加速器的吞吐率最大提高了26.7%,响应时间最大减少了50%.
马宜科常晓涛范东睿刘志勇
关键词:硬件加速
共1页<1>
聚类工具0