您的位置: 专家智库 > >

“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项(2009ZX01029-001-002)

作品数:9 被引量:12H指数:2
相关作者:程旭王克义佟冬黄涛王晶更多>>
相关机构:北京大学首都师范大学更多>>
发文基金:国家科技重大专项国家高技术研究发展计划北京市自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 9篇自动化与计算...

主题

  • 3篇硬件
  • 3篇软硬件
  • 2篇末级
  • 2篇内存
  • 1篇带宽
  • 1篇动态带宽
  • 1篇动态翻译
  • 1篇多核
  • 1篇虚拟机
  • 1篇异构
  • 1篇异构多核
  • 1篇预测技术
  • 1篇软硬件协同
  • 1篇数据对象
  • 1篇数据预取
  • 1篇能效
  • 1篇自适
  • 1篇自适应
  • 1篇字节
  • 1篇字节码

机构

  • 9篇北京大学
  • 3篇首都师范大学

作者

  • 5篇程旭
  • 5篇王克义
  • 4篇佟冬
  • 3篇陆俊林
  • 3篇王晶
  • 3篇黄涛
  • 2篇谢子超
  • 2篇杨春
  • 2篇管雪涛
  • 2篇王箫音
  • 2篇钟祺
  • 1篇郑衍松
  • 1篇党向磊
  • 1篇谭明星
  • 1篇刘先华
  • 1篇易江芳
  • 1篇刘锋
  • 1篇贾宁
  • 1篇钮艳

传媒

  • 3篇计算机研究与...
  • 3篇电子学报
  • 2篇计算机辅助设...
  • 1篇北京大学学报...

年份

  • 1篇2016
  • 1篇2015
  • 3篇2014
  • 1篇2013
  • 1篇2012
  • 2篇2011
9 条 记 录,以下是 1-9
排序方式:
动态翻译系统中的间接转移关联软件预测算法被引量:1
2014年
动态翻译系统每执行一次间接转移指令均需进行一次地址转换,该过程是翻译系统性能开销的主要来源之一.无特殊硬件支持的翻译系统常采用软件预测法来降低地址转换开销,而软件预测法的预测准确率较低,制约其对翻译系统整体性能的提升.低开销关联软件预测算法(low-overhead correlated software prediction,LOCSP)可利用代码副本区分待预测指令的不同转移场景,将到达该指令的多条动态执行路径分离为多个互不重合的代码缓存副本,并为各个副本提供独立的预测链.从而在不增加动态指令数的前提下实现关联预测,显著提升软件预测的预测准确率.同时,LOCSP算法基于动态剖析的结果,仅对部分难预测的热点间接转移指令进行关联软件预测,进一步降低预测开销.实验表明,相比软件预测法,LOCSP算法可将平均预测准确率从58.9%提升至82.2%,将翻译系统的整体性能开销平均降低19.3%,最高降低41.9%,而平均静态代码数量仅增加2.4%.
贾宁杨春佟冬王克义
关键词:动态翻译
基于数据对象规模的Rank级内存分配方法被引量:1
2014年
利用主存的多bank/rank/channel结构挖掘访存并行性和局部性,是提高系统性能的重要手段.相关研究工作通过sub-rank技术增加可并行工作的存储资源,或在并行程序之间对bank划分,以隔离访存冲突.但上述方法没有考虑在bank/rank资源共存的情况下,单个程序内部数据对象间的冲突问题.通过观察数据在主存中的分布,发现程序的数据倾向聚簇于单个rank中,并提出了一种基于数据对象规模的rank级内存分配方法(data object scale aware rank-level memory allocation,DSRA).DSRA将冲突开销较大的数据对象分散到不同的rank,利用增长的bank/rank资源提高访存性能.DSRA工作在操作系统层,基于编译器和操作系统提供的信息来分析数据对象间的冲突开销,既不用修改源码,也不依赖特殊的底层硬件.基于2款真实处理器对来自NAS Benchmark和SPEC CPU2000中的存储敏感型基准测试程序进行评测.结果表明,在不影响cache失效率的情况下,DSRA通过减少主存访问周期数,可以降低程序的执行时间.与已有的优化技术相比,性能平均提高6.8%,最高性能提升幅度为16%.
钟祺王晶管雪涛黄涛王克义
关键词:操作系统内存分配数据对象
一种面向解释器的间接转移预测技术被引量:3
2015年
解释器广泛应用于Java虚拟机、JavaScript执行引擎等托管运行环境中.解释器通常使用间接转移指令实现字节码分派.在现代多发射多级流水的微处理器中,间接转移预测失效严重制约解释器的性能.针对解释器提出了一种字节码指针引导的间接转移预测技术,其核心思想是使用解释器特有的字节码指针值区分不同的间接转移场景.该技术使用软硬件协同的方式,解释器中插入专门的引导指令以标记字节码指针,预测器在运行时刻使用字节码指针值预测转移目标地址.实验结果表明,该技术与常用的转移目标缓冲预测器相比,能提升Java解释器的性能达34.7%,能提升JavaScript解释器的性能达8.3%,与专用的硬件间接转移预测器TTC(tagged target cache)相比,也能提升Java解释器的性能达21.9%.
黄明凯刘先华谭明星谢子超程旭
关键词:解释器软硬件协同
面向异构多核系统芯片的高效动态带宽划分方法被引量:1
2016年
针对异构MPSoC中各主设备频繁争抢有限访存带宽、请求相互干扰、严重影响系统性能的问题,提出一种基于限流的动态DRAM带宽分配机制——TDBA.首先实时监测主设备访存特性,通过访存干扰程度评估将主设备分组;然后对造成严重干扰的主设备设置带宽限流阈值来防止其过度争抢带宽,并根据系统带宽使用情况动态调整该阈值,同时优先计算密集主设备的请求以进一步提高系统性能.将TDBA应用于真实异构MPSoC系统的实验结果表明,TDBA可以有效地降低访存干扰,明显提高系统性能.
刘阳国陆俊林程旭易江芳佟冬刘锋
面向按序执行处理器的预执行指导的数据预取方法被引量:1
2012年
为提高按序执行处理器的访存性能,本文提出一种预执行指导的数据预取方法(PEDP).PEDP利用跨距预取器对规则的访存模式进行预取,并在发生L2 Cache失效后通过预执行后续指令对不规则的访存模式进行精确的预取,从而结合两者的优势提高预取覆盖率.同时,PEDP利用预执行过程中提前捕获的真实访存信息指导跨距预取器的预取过程.在预执行的指导下,跨距预取器可以对预执行能够产生的符合跨距访存模式的地址更早地发起预取请求,从而改善预取及时性.此外,为进一步优化上述指导过程,PEDP使用更新过滤器有效去除指导过程中对跨距预取器的有害更新,从而提高预取准确率.实验结果表明,在平均情况下,PEDP将基准处理器的性能提升33.0%.与跨距预取和预执行各自单独使用相比,PEDP将性能分别提高16.2%和7.3%.
党向磊王箫音佟冬陆俊林程旭王克义
关键词:数据预取
采用分区域管理的软硬件协作高能效末级高速缓存设计被引量:2
2013年
受"存储墙"和"功耗墙"影响,末级高速缓存污染会造成严重的性能损失和能耗开销.针对单纯基于硬件或软件的传统优化方法无法有效地识别局部性差的数据,且存在一定的优化空间的问题,提出一种软硬件协作的末级高速缓存设计方法.该方法在运行时刻剖视分析程序内不同数据区域的访存行为,并通过相应接口动态地调整每个数据区域的旁路和插入策略,可以在提高处理器访存性能的同时降低其能耗,提高系统的能效性.实验结果表明,与现有的LRU,DIP和DRRIP方法相比,采用文中方法后处理器平均能效性分别提升了17.42%,12.79%和8.15%.
黄涛王晶管雪涛钟祺王克义
一种降低末级高速缓存污染的分阶段自适应动态插入策略
2014年
对多种末级高速缓存插入策略进行分析,并在动态插入策略DIP的基础上提出一种分阶段自我调整的动态插入策略,用于消除局部性差数据访问末级高速缓存造成的不良影响。实验结果表明,与现有LRU替换算法相比,此方法将末级高速缓存的MPKI平均降低了7.07%,即使与动态插入策略DIP相比,此方法也获得进一步的性能提升,末级高速缓存MPKI平均降低了4.36%。
黄涛王晶王克义
一种面向超标量处理器的高能效指令缓存路选择技术被引量:1
2011年
路选择技术可以有效降低指令缓存能耗开销,但已有方法通常会由于预测错误或更新机制复杂而引入额外的取指延迟,导致整体能效性降低.本文面向典型超标量处理器的指令缓存结构,提出了一种高能效的路选择融合技术(Combining Way Selective Cache,CWS-Cache).基于对路预测和路历史技术适用条件的分析,CWS-Cache在不同的取指场景中选择使用最佳路选择策略,有效降低了指令缓存的取指能耗,并通过缩短非对齐取指组的访问延迟提升处理器性能.实验表明,CWS-Cache将拥有8路组相联指令缓存的基础处理器取指能耗降低了84.98%,性能提升了3.50%.与已有的三种方法相比,CWS-Cache能效性分别提升了15.48%,14.13%和8.76%.
谢子超陆俊林佟冬王箫音程旭
关键词:超标量处理器
GOSBMB:基于客户操作系统行为的虚拟机内存均衡方法被引量:2
2011年
在虚拟机环境中为客户操作系统分配内存资源时,需在性能和资源利用效率之间进行权衡.本文提出一种基于客户操作系统行为的虚拟机内存均衡方法GOSBMB(Guest Operating System Behaviors based Memory Balancer).该方法在尽量降低性能损失的前提下,根据客户操作系统中进程工作集和磁盘页面缓存对虚拟机监控器呈现的行为特征,以对客户操作系统透明的方式估计它们各自的内存需求,并按需动态调整内存资源.在Xen上实现了GOSBMB原型系统,实验表明,使用GOSBMB动态调整内存资源时,在节约内存资源达69.6%的情况下,客户操作系统的性能损失低于7.6%.
钮艳郑衍松杨春程旭
关键词:虚拟机
共1页<1>
聚类工具0