佟冬
- 作品数:58 被引量:131H指数:7
- 供职机构:北京大学更多>>
- 发文基金:国家高技术研究发展计划国际科技合作与交流专项项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 蒙哥马利算法到脉动阵列的规范映射方法被引量:1
- 2004年
- 蒙哥马利算法是在RSA密码系统中广泛应用的模乘法算法。该文介绍蒙哥马利算法到脉动阵列的映射过程,阐述了从算法到脉动阵列的规范映射方法。阵列的时钟周期长度大致是两个单位全加器延迟,n位模乘法的计算延迟是2n+2个时钟周期。模块化、规则化、通信局部化等特征,使得脉动阵列特别适合采用深亚微米VLSI技术实现,并获得很高的工作频率,从而提高处理速度。
- 刘强佟冬程旭
- 关键词:蒙哥马利算法脉动阵列
- 基于固件的系统芯片协同验证平台
- 2011年
- 使用FPGA进行全系统仿真是验证基于平台设计的系统芯片(SoC)的有效手段,但FPGA原型验证一方面须等待硬件设计完成编码,另一方面FPGA全系统环境下的硬件设计错误定位耗时,验证周期较长.为更早展开系统级验证工作并缩短验证周期,提出一种基于固件的协同验证平台——FCVP.FCVP在FPGA上基于固件模拟待测硬件设计和系统模块,通过运行真实工作负载,对比FPGA中待测硬件设计和FCVP模拟参考模型的行为,帮助分析、定位硬件设计错误.在PKUnity86 SoC上进行验证的实例表明,FCVP可用于SoC设计初期验证,并可有效地辅助硬件设计错误的定位.性能评测显示,FCVP模拟性能优于纯软件模拟器.
- 李皓李险峰庞九凤黄侃郑衍松佟冬程旭
- 关键词:系统芯片固件全系统模拟器
- 结合PVT模拟和排队模型的系统级主存性能分析被引量:1
- 2010年
- 由于主存系统的性能受到多种因素的影响,现有方法不能快速地得到可靠的分析结果,从而影响芯片质量和上市时机.为解决此问题,提出将带时序的程序员视图(PVT)模拟和排队论相结合的方法——ComPQ.首先从PVT模拟中提取与访存相关的系统级实时参数,然后将主存系统抽象为非抢占优先的M/G/1排队模型,再结合实时参数进行性能分析,得到平均访存延迟结果.由于PVT的建模和模拟代价小,从中得到的实时参数弥补了静态理论分析的不足;同时,排队论也提高了纯PVT模拟的精度.实验结果表明,ComPQ与周期精确级模拟相比平均误差为6.38%,最后用主存系统设计空间探索的实例验证了ComPQ的有效性.
- 林桦佟冬黄侃王克义程旭
- 关键词:系统级设计事务级建模排队论性能分析
- 基于关键信号的路径覆盖率模型被引量:2
- 2006年
- 针对使用路径覆盖率作为验证目标时出现的路径数量庞大、覆盖率难以快速提高等问题,使用控制流图表示代码逻辑结构,采用数据流分析技术对待验证路径进行合理的化简.所产生的路径集合规模小、针对性强,有利于尽早发现设计错误.最后使用遗传算法生成模拟矢量,并基于北京大学“众志-863系统”芯片中的功能模块给出实验结果,说明该覆盖率模型的有效性.
- 易江芳佟冬程旭
- 关键词:数据流分析遗传算法
- 基于新型脉动阵列的RSA密码处理器被引量:2
- 2005年
- 应用于RSA密码系统的蒙哥马利模乘法算法,在专用集成电路实现时可以采用脉动阵列结构。长比特(10 2 4位以上)数据的全局信号传输和乘法器的动态分割问题,对于RSA密码处理器的速度提高是非常重要的因素。作者提出一种基于模块的全局信号广播策略,减少全局信号的影响:通过采用流水化的总线传送全局数据;通过移位寄存器传送控制信号以及用于连续的乘法的中间结果。除了全局时钟之外的信号都被限定在一个模块内部或者相邻的2个模块之间。中国剩余定理(CRT)的采用,将解密速度提高了近4倍,作者提出一种冗余结构,使得在采用CRT时乘法器可以有效的进行动态分割。
- 刘强马芳珍佟冬程旭
- 关键词:公钥基础设施超大规模集成电路脉动阵列深亚微米技术中国剩余定理
- MDCI:基于多粒度动态控制流不变式的硬件故障局部化
- 2010年
- 本文提出了一种基于多粒度动态控制流不变式的硬件故障局部化方法MDCI.该方法基于预先提取的置信度较高的各种粒度动态控制流不变式,多粒度逐级迭代地检验控制流不变式程序点是否可达,从而将与硬件故障相关的代码范围局部化.实验结果表明MDCI只需检验少量的控制流程序点,就能准确地将与故障相关的代码范围局部化.
- 郑衍松佟冬王克义程旭
- 关键词:多粒度硬件故障
- 基于切片分析的CMOS组合电路贝叶斯动态功耗模型(英文)
- 2008年
- 为改善周期精确级功耗分析的准确度和速度问题,使用多维特征参数建立贝叶斯推理的动态功耗模型.基于功耗分布与电路内部节点状态的分析,发现仅使用端口信息作为参数的不足.定义了门单元级数的计算和对应切片的概念,提出使用切片分析的技术提取电路内部关键层的翻转密度作为参数,与端口信息共同参与贝叶斯推理.基于ISCAS85基准电路的实验结果表明,该方法使原始模型的误差降低21.9%,均方差降低25.0%,同时保持了相对现有门级功耗分析700倍的加速比.
- 陈杰佟冬李险峰谢劲松程旭
- 关键词:贝叶斯推理功耗模型
- 覆盖矩阵反馈的演化测试程序生成方法
- 2011年
- 覆盖率驱动的测试程序生成是目前微处理器功能验证的研究热点之一,现有的演化测试程序生成方法应用到大规模复杂功能覆盖率模型时效果不佳.针对该问题,首先使用分组策略将全局功能覆盖率模型划分为若干覆盖率子模型,然后为每个覆盖率子模型独立运行基于覆盖矩阵反馈的演化测试程序生成进程.将文中方法应用到北大众志UniCore32定点处理器核的流水线控制相关机制的功能验证中,可以取得95.11%的功能覆盖率;与现有演化测试生成方法相比,在算法运行时间节省60.4%的情况下功能覆盖率提高了31.03%.
- 张良佟冬程旭王克义
- 关键词:演化算法测试程序生成
- 动态翻译系统中的间接转移关联软件预测算法被引量:1
- 2014年
- 动态翻译系统每执行一次间接转移指令均需进行一次地址转换,该过程是翻译系统性能开销的主要来源之一.无特殊硬件支持的翻译系统常采用软件预测法来降低地址转换开销,而软件预测法的预测准确率较低,制约其对翻译系统整体性能的提升.低开销关联软件预测算法(low-overhead correlated software prediction,LOCSP)可利用代码副本区分待预测指令的不同转移场景,将到达该指令的多条动态执行路径分离为多个互不重合的代码缓存副本,并为各个副本提供独立的预测链.从而在不增加动态指令数的前提下实现关联预测,显著提升软件预测的预测准确率.同时,LOCSP算法基于动态剖析的结果,仅对部分难预测的热点间接转移指令进行关联软件预测,进一步降低预测开销.实验表明,相比软件预测法,LOCSP算法可将平均预测准确率从58.9%提升至82.2%,将翻译系统的整体性能开销平均降低19.3%,最高降低41.9%,而平均静态代码数量仅增加2.4%.
- 贾宁杨春佟冬王克义
- 关键词:动态翻译
- 保证QoS的片上网络低能耗映射与路由方法被引量:11
- 2008年
- 为解决二维mesh片上网络的服务质量和低能耗问题,提出基于最优化搜索的拓扑映射与路由方法Q-LEMR.该方法以降低芯片通信能耗为目标,在保证系统延迟与带宽的服务质量的前提下,自动将给定应用的IP核映射到片上网络结构上,并为通信踪迹定制设计确定的、非死锁的最短路径路由;同时通过加速策略使映射和路由的计算在可接受的时间范围内完成.实验结果表明,Q-LEMR较现有工作平均降低通信能耗28.8%,并满足服务质量要求.
- 林桦李险峰佟冬程旭
- 关键词:片上网络拓扑映射路由