公共文化服务平台

OpenSPARC T1处理器Cache的优化研究: 2016年; 文章以OpenSPARC T1处理器为例,分析了片上多线程结构(chip multi-threading,CMT)处理器由于Cache抖动引发的缓存冲突等问题,通过引入空间锁环机制,减少程序中循环体被替换出Cache的概率,降低Cache冲突,从而提高多线程处理器性能。结果表明,使用空间锁环机制有效降低了缓存延迟和Cache的失效率。; 侯泽君张多利贾鼎成卢方全施莹; 关键词：T1 处理器 CACHE 抖动

基于功能细分的硅通孔容错方法被引量：1: 2016年; 硅通孔(Through Silicon Via,TSV)技术是现今主流的三维芯片上下层互联技术之一.将从三维片上网络(Network on Chip,NoC)垂直通道的功能细分入手:按照TSV重要性的不同划分成组,对不同的TSV组配置不同的冗余配置比.在现有的"包-连接电路"(PCC)平台上完成的实验显示,该冗余容错方案保证了在TSV总数达到十万量级时,成品率依然高达99.999 99%的同时,面积开销与非功能细分方案相比优化了35%以上.; 杜高明曹舒婷张多利宋宇鲲高明伦; 关键词：容错

一种极低IO带宽需求的大维度矩阵链式矩阵乘法器设计: 2019年; 大维度矩阵乘法常采用子矩阵分块法实现,子矩阵的最大规模决定了整个矩阵乘法执行速度。针对经典脉动结构直接处理的矩阵规模受IO带宽限制严重的问题,提出了一种极低IO带宽需求的大维度矩阵链式乘法器结构,并完成了硬件设计实现与性能验证工作。主要工作如下:(1)优化了矩阵乘法的数据组织,实现输入矩阵规模与IO带宽无关,能够最大限度地利用器件内部逻辑和存储资源;(2)根据优化后数据组织形式设计了链式乘法器硬件,实现源数据计算和传输重叠操作;(3)增强乘法器对矩阵规模的适应性,所设计的链式乘法器可实时配置为多条独立链,并行多组运算;(4)在Xilinx C7V2000T FPGA芯片上完成不同种规模的链式乘法器硬件实现和性能测试工作,在该芯片上本文提出的链式乘法器最多支持800个运算单元,是经典脉动结构规模的8倍;在相同运算器个数下,本文提出的链式乘法器只使用经典脉动结构运算1/8的IO带宽即获得相等性能。; 宋宇鲲郑强强王泽中张多利; 关键词：矩阵乘 FPGA

多核系统静态任务调度的启发式算法被引量：7: 2018年; 在任务调度研究领域,列表类调度算法的优化研究始终备受关注,针对经典列表调度算法难以获得理想调度解的缺陷,提出一种迭代型列表调度算法。该算法采用遍历宏块拓扑序列技术,扩大任务图拓扑序列搜索空间以得到更小的任务图调度长度。理论分析表明,对于任意的任务图,该算法得到的调度长度必不大于经典列表调度算法。以4种常见类型和随机类型的任务图样本证实,迭代型列表调度算法能够有效改善调度解,尤其在平均通信计算时间比超过1的情况下,调度性能的平均提升超过14.6%,最大提升达到102.8%。; 宋宇鲲韦龙龙张多利; 关键词：调度算法宏块搜索空间

A Self-Routing Omega Network: The Omega network,whose data channel can be dynamically changed,is a kind of multi-stage interconnection netwo...; Yu-kun SongJing HeGao-ming DuDuo-li Zhang; 关键词：SCALABILITY

基于异构多核可编程系统的大点FFT卷积设计与实现被引量：15: 2017年; 如今FFT卷积广泛应用于数字信号处理,并且过去几年证实了异构多核可编程系统(HMPS)的发展。另外,HMPS已经成为DSP领域的主流趋势。因此,研究基于HMPS大点FFT卷积的高效地实现显得非常重要。基于重叠相加FFT卷积方法,设计一款针对输入数据流的高效流水重叠相加滤波器。介绍了基于HMPS的大点FFT卷积实现,获得了高精度的滤波效果。此外,采用流水技术的滤波器设计,提高系统处理速度、数据吞吐率和任务并行度。基于Xilinx XC7V2000T FPGA开发板上的实验表明,参与运算的采样点越大,系统的任务并行度、处理速度和数据吞吐率就会越高。当采样点达到1M时,系统的平均任务平行度达到了5.33,消耗了2.745×10~6个系统时钟周期数,并且绝对误差精度达到10^(-4)。; 张多利沈休垒宋宇鲲杜高明; 关键词：算法映射异构多核

Sigmoid函数的分段非线性拟合法及其FPGA实现被引量：14: 2017年; 使用分段非线性逼近算法计算超越函数,以神经网络中应用最为广泛的Sigmoid函数为例,结合函数自身对称的性质及其导数不均匀的特点提出合理的分段方法,给出分段方式同逼近多项式阶数对逼近结果精度的影响。完成算法在FPGA上的硬件实现,给出一种使用三阶多项式处理Sigmoid函数的拟合结果及流水线架构,处理精度达到10-5数量级,最大频率达到127.327 MHz,满足了高速、高精度的处理要求。; 宋宇鲲高晓航张多利杜高明; 关键词：SIGMOID函数 FPGA

缩短BCH码的快速编译码方法和硬件优化设计被引量：2: 2019年; 文章提出一种缩短Bose-Chaudhuri-Hocquenghem(BCH)码的快速编译码方法,编码过程的计算量为(k-i)(n-k),当i较小时,总计算量为O(nk-k^2),译码过程矩阵复用编码过程矩阵,计算量为0;研究了基准错误图样与码字错误位置对应关系的规律,并从减少错误图样和减少纠错电路的角度,对缩短BCH码的硬件实现进行优化;设计缩短BCH码(36,24,5),该方法在编码过程减少91%的矩阵计算量,减少66.7%的元素个数,译码过程完全省略元素计算过程,错误图样码向量减少11.8%,纠错电路减少51.4%。; 张多利姚永彤宋宇鲲杜高明; 关键词：伴随式

一种用于矩阵求逆的原位替换算法及硬件实现被引量：4: 2020年; 对于数字信号处理、无线通信技术等数值计算领域中大量的矩阵求逆运算,采用传统的求逆算法,如伴随矩阵法、高斯消去法等,计算量庞大、过程复杂,且存储空间需求大、并行性低,硬件实现计算加速效率不高。文章提出一种原位替换矩阵求逆算法,针对算法设计地址控制和硬件架构,在Xilinx公司的Virtex7现场可编程逻辑门阵列(field programmable gate array,FPGA)中进行了硬件实现,验证了所设计的硬件架构在原存储空间内,能够并行高效地完成2^n阶单精度实数矩阵求逆运算,结果精度能达到10^-6。与基于Cholesky分解的矩阵求逆方法相比,该算法能取得近10倍的加速比;其并行性高,占用的存储和硬件资源少,具有较高的性能。; 张多利蒋雯叶紫燕宋宇鲲汪健; 关键词：矩阵求逆硬件架构并行计算存储资源

一种基于NoC的MPSoC模拟器的实现: 2018年; 本文设计了一款系统结构参数可配置的多核全系统模拟器MPSimu(MPSoC Simulator),采用混合精度建模技术实现模拟器速度与精度的平衡,集成了调试器和布局优化器用于工作数据收集、调试及布局优化.实验结果表明,MPSimu较为准确地模拟了目标系统的行为,测试程序在MPSimu上运行的周期与系统实测周期误差在10%以内,为MPSoC的性能评测和架构分析提供一种高效的解决方案.; 张多利史岩松汪健宋宇鲲; 关键词：片上网络模拟器

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61106020)