国家自然科学基金(60803041)
- 作品数:9 被引量:28H指数:3
- 相关作者:沈立王志英甘新标陆洪毅肖侬更多>>
- 相关机构:国防科学技术大学同济大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国防科技大学优秀研究生创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向众核GPU结构的椭圆曲线加密流化技术被引量:2
- 2011年
- 针对椭圆曲线加密系统的加密速度不能满足实时性要求的现状,分析了椭圆曲线加密机制(Elliptic Curve Cryptography,ECC)潜在的并行性,研究了GPU众核多线程及共享存储空间和只读Cache对ECC性能提升的影响,提出了以GPU强大计算资源和有效的存储带宽来流化加速ECC的方法。实验结果显示,在支持计算统一设备架构(Computing Unified Device Architecture,CUDA)的GPU上流化实现的ECC原型系统与优化的CPU实现相比可获得高达66×的加速度比。另外,针对ECC的流化并行及优化技术可作为一般方法推广至其它流体系结构。
- 甘新标沈立王志英
- 关键词:GPU椭圆曲线加密计算统一设备架构
- 基于多核平台的多线程动态优化框架被引量:2
- 2011年
- 动态优化是计算系统虚拟化的重要支撑技术之一。本文通过对DynamoRIO、Jrpm等单核平台上典型动态优化系统的分析,总结出传统动态优化机制在多核平台下面临的问题与挑战,据此提出一种面向多核平台的多线程动态优化框架,分析其组织结构和工作原理,并通过实验验证了该框架的可行性。
- 徐帆沈立王志英
- 关键词:多线程多核动态优化
- 采用异或算子和椭圆曲线的混合加密机制被引量:4
- 2010年
- 针对椭圆曲线加密系统处理由多个零碎文件组成的较大量数据信息时,其安全强度高而实时性较差的问题,提出了一种基于异或算子和椭圆曲线加密的多组混合加密方法(XORECC).该方法利用不同的密钥矢量与明文中零碎的文件异或得到密文,然后将其与零碎文件异或的密角矢量集合存放于锁盒子里,利用椭圆曲线加密机制对锁盒子进行加密以保证XORECC机制的安全性.通过引入异或(XOR)操作,使XORECC机制有效避免了椭圆曲线系统直接对大量数据进行加密,在保证密文高安全性的同时提高了系统的整体性能.
- 甘新标沈立王志英
- 关键词:椭圆曲线加密
- 指令扩展中相关子图的分析与处理
- 2009年
- 由于没有充分考虑候选子图间重叠、包含等相关关系,按照现有指令扩展方法选出的扩展指令可能无法带来预期的性能收益.详细讨论了子图相关关系和处理方法,并提出相应的指令扩展算法.在子图识别时,根据延迟约束合并相互包含的子图,根据重叠结点的位置合并重叠子图,缩小搜索空间;在子图压缩时,根据子图相关关系动态地调整候选子图的性能收益,减少相关子图引起的估算误差.此外,还根据剩余候选子图的性能收益对时间与精度进行折中.该算法已在传输触发结构ASIP的自动设计流程中实现,实际性能加速比与预期值的平均误差仅为0.17%,远低于原先的3.6%.
- 沈立张晨曦吕雅帅王志英
- 关键词:专用指令集处理器
- SIMD数据置换操作的自动生成和优化
- 2011年
- SIMD指令能够高效开发数据级并行,因此当前绝大多数通用微处理器都支持这种机制。但是应用程序和算法的一些固有特性,如访存地址不对齐、非连续存储访问以及控制流等,使得编译器或程序员必须借助置换指令重新组合向量的各个元素,才能得到符合SIMD指令要求的操作数。这些冗余的置换指令已成为当前挖掘数据级并行的主要性能瓶颈。提出一种自动的数据置换指令生成和优化算法,以有效地减少置换指令带来的性能损失。该算法基于提出的一种新中间表示形式,其中包含有足够的操作数地址信息,因此可以将置换指令的生成转换为数据流图中冲突边的识别问题,而将置换指令的优化转化为用最少的置换指令来删除所有冲突边的问题。面向一组典型多媒体程序进行测试的结果表明,提出的算法可平均获得7%的性能加速。
- 陈向沈立李家文
- 关键词:数据置换
- 降低协同设计虚拟机启动开销的译码后指令缓存技术被引量:3
- 2011年
- 协同设计虚拟机采用动态二进制翻译实现不同体系结构间的二进制兼容,对源指令的翻译和处理影响了协同设计虚拟机的启动性能.研究发现,在一个采用解释执行和翻译相结合的协同设计虚拟机中,处理非热点代码的解释执行是虚拟机启动开销的主要来源.发现了协同设计虚拟机中的解释例程局部性,并提出了一种硬件译码后指令缓存结构DICache(decoded instruction cache),用于存储解释执行过程中译码后的指令信息,开发解释例程的局部性,避免大量重复的译码操作.在一个协同设计虚拟机上对DICache进行评估,采用一组SYSmark 2004 SE商业应用测试程序进行测试.结果表明,DICache可以有效减少重复译码量,将协同设计虚拟机的启动性能平均提高约2.4倍.与相关的优化技术相比,DICache的性能更好,且具有更强的适用性.
- 陈微王志英肖侬沈立陆洪毅
- 关键词:协同设计虚拟机动态二进制翻译
- 基于DICache的混合线索解释执行技术被引量:1
- 2012年
- 由解释执行实现的指令集仿真是解决二进制兼容问题的有效手段。解释执行各步骤的组织方式对解释器性能有着重要影响。集中方式效率较低,而效率较高的线索方式由于译码过程过于复杂而无法用于CISC指令集的解释执行。本文提出了一种基于DICache的混合线索解释执行技术,DICache实现一种高效的硬件动态预译码,将源指令转换为一种中间表示,在解释例程中对DICache快速访问实现对CISC指令集的线索解释执行。本文在一个源为IA-32、目标为VLIW的解释器上,采用SPEC INT2000中的测试程序对基于DICache的混合线索解释执行技术进行评估。结果表明该方法可以显著提高解释器的性能。
- 陈微王志英陈顼颢沈立陆洪毅肖侬
- 关键词:指令集仿真
- 基于CUDA的并行全搜索运动估计算法被引量:16
- 2010年
- 为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比.
- 甘新标沈立王志英
- 关键词:图形处理器CUDA
- 一种面向自动向量化和数据置换操作的中间表示
- 2012年
- 在现有的SIMD程序设计中,编译器或程序员都需要借助置换指令对参与运算的向量操作数进行重新组织,才能符合SIMD指令的要求。这些置换指令带来了较大的性能损失。本文提出了一种新的中间表示,它能够完整地记录标量和向量操作数的存储地址信息,使得置换指令的产生尽可能地推后,减少了冗余置换指令的产生。利用这种中间表示实现了一种数据置换操作的优化算法,它能够有效地减少置换指令带来的性能损失。面向一组典型的多媒体程序进行测试的结果表明,本文提出的方法可以平均获得7%的性能加速。
- 陈向沈立
- 关键词:SIMD数据置换