张骏
- 作品数:39 被引量:80H指数:5
- 供职机构:西安航空计算技术研究所更多>>
- 发文基金:国家科技重大专项国家自然科学基金中国人民解放军总装备部预研基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于OpenGL的GPU命令处理器设计方法研究被引量:1
- 2020年
- 命令处理器是GPU中的可编程染色器,它将接收到的图形命令发送到3D引擎进行处理并绘制出图像。命令处理器是GPU数据处理的来源,其对图形命令的解析方式、处理速率与数据吞吐量直接决定了图形处理器3D引擎性能的发挥。在分析OpenGL图形绘制命令的基础上,提出了一种适用于OpenGL的图形命令处理器架构,并设计相应的运行管理方法及性能监控策略,既保证了命令处理运行的正确性,提高图形命令运行的时效性,又为命令处理器的升级与优化指明了方向。
- 刘晖田泽田泽马城城
- 关键词:图形处理器OPENGL运行管理
- 一种家庭冷热负荷供应系统
- 一种家庭冷热负荷供应系统,包括压缩机,压缩机出口与冷凝器放热侧入口相连,冷凝器放热侧出口管道经由节流阀与蒸发器吸热侧入口相连,蒸发器吸热侧出口与压缩机入口相连;冷凝器吸热侧出口管道一路与热水箱入口相连,另一路与空气加热器...
- 魏江张骏宋战兵薛康康魏红明李根
- 文献传递
- 一种用于高温熔融物释放的机械提升装置及方法
- 一种用于高温熔融物释放的机械提升装置及方法,该装置包括依次设置于位于压力容器内的加热系统上的释放机构、连接机构、密封机构和动力机构,释放机构包括:坩埚堵塞,其下端为锥形,上端与导向杆螺纹连接,材质为非导电性材质,防止堵塞...
- 李根张骏冯浩波严俊杰刘继平
- 文献传递
- 用于多核处理器的一致性维护装置
- 本实用新型公开了一种用于多核处理器的一致性维护装置,包括若干处理器内核和片上网络;所述若干处理器内核均连接片上网络;所述处理器内核包括路由器。在发生读、写缺失时根据节点预测缓存单元直接预测访问与读、写缺失内核最近的有效数...
- 张骏赵季中梅魁志
- 文献传递
- GPU颜色单元压缩解压缩电路设计与实现
- 2019年
- 图形处理器中颜色单元与片外DDR3存储器需要频繁地交换大量数据,与此同时DDR3存储器还要响应来自显示控制单元、深度单元、纹理单元的数据访问请求。为了优化DDR3访问带宽,颜色单元与DDR3存储器之间的压缩解压缩通路变得尤为重要。提出一种面向GPU颜色单元的压缩解压缩电路结构,采用ECPD算法,为GPU的颜色单元、显示控制单元与外部DDR3存储器之间提供颜色数据压缩解压缩通路。压缩电路将颜色单元写回的颜色数据进行压缩并存储至DDR3存储器,解压缩电路将从DDR3存储器读取回来的数据进行解压缩并提交给颜色单元或显示控制单元使用。基于虚拟仿真平台和Xilinx FPGA构成的原型系统对压缩解压缩电路进行了验证,结果表明压缩解压缩电路各项功能正确,实现了颜色单元、显示控制单元与DDR3存储器之间的流水操作。
- 刘浩田泽张骏刘航郑新建
- 关键词:图形处理器解压缩
- 用于多核处理器的一致性维护装置及一致性交互方法
- 本发明公开了一种用于多核处理器的一致性维护装置及一致性交互方法,主要用于解决现有多核处理器Cache一致性协议在处理读缺失和写缺失的一致性交互过程中目录访问延迟大的技术问题。本发明将多核处理器的所有内核划分为并列关系的多...
- 张骏赵季中梅魁志
- 文献传递
- 一种基于GPU的主机接口设计与验证被引量:1
- 2020年
- 对于性能要求极高的GPU核,为了解决其与CPU进行高速数据通信的需求,设计了一种基于PCIe DMA为核心的高速主机接口,峰值通信速率可达16 Gb/s(x4),实现了寄存器通路以使CPU对GPU内核寄存器配置,实现了DMA通道以使CPU与GPU内核间高速进行图形数据传输;因设计复杂、规模大、要求主机接口模型能模拟CPU行为,采用UVM标准化验证架构实现其虚拟仿真平台,实现了与C交互的DPI接口以使软件激励模拟CPU的行为,该平台高效、可重用并具有良好的鲁棒性,经过性能仿真统计DMA数据传输有效带宽完全满足高速数据传输的需求,且性能稳定。
- 王世中田泽田泽许宏杰张骏
- 关键词:GPU主机接口PCIE
- 基于节点预测的直接Cache一致性协议被引量:33
- 2014年
- 处理器性能的提升依赖于对存储系统性能的挖掘.随着片上集成内核数量的不断增大和特征尺寸的持续缩小,延迟、存储可扩展的Cache一致性协议已经成为提升访存效率的关键性因素.文中提出一种基于节点预测的直接Cache一致性协议-NPP协议,研究一致性交互延迟隐藏和目录存储开销减少技术.针对读、写缺失中存在的间接性问题和现有解决方案破坏已有数据局部性、无法获得最近数据副本等问题,分别提出节点挂起技术和直接写缺失处理技术,有效隐藏了目录访问延迟.为了实现准确的节点预测,作者还提出基于“签名”回收的历史信息更新算法,避免了冗余更新和不完整更新.使用SPLASH-2测试程序集,在基于2DMESHNoC互联的64核CMP下,相对于全映射目录协议,NPP协议的平均执行时间降幅为21.78%~31.11%;平均读缺失延迟降低14.22%~18.9%;平均写缺失延迟降低17.89%~21.13%.而获得上述性能提升的代价是网络流量平均增加6.62%~7.28%.
- 张骏田泽梅魁志赵季中
- 低功耗X86指令译码部件的设计与实现
- 2020年
- 随着处理器设计技术和半导体制造工艺的进步,芯片的规模和复杂度急剧增大,不断提升的功耗密度对系统工作的可靠性和稳定性造成很大影响,“功耗墙”已经成为提升处理器性能的最大障碍。介绍了低功耗设计的基本原理,结合X86指令集的特点,设计了一种X86指令译码器,并在体系结构层次上,提出从指令预取队列和译码队列两个不同角度对X86指令译码器进行低功耗设计的方法。基于SMIC 180 nm CMOS工艺,采用Synopsys DC工具进行了综合实现,并对译码器低功耗设计效果进行了评估。结果表明,在几乎不影响速度和面积的前提下,指令译码器关键数据通路寄存器平均翻转率降低了17.16%。
- 张骏张骏任向隆田泽刘航
- 关键词:微处理器低功耗指令译码X86
- Catmull-Rom图像缩放算法的自适应结构设计与实现被引量:1
- 2019年
- 为解决传统Catmull-Rom缩放结构因行列计算量比例不协调导致行/列插值部件长期停顿而造成的性能低下问题,提出了两种自适应结构.在传统结构的基础上增加三个插值部件,并结合两种自适应策略,分配新增插值部件用于行或列插值,并对处于工作状态的插值部件的数量进行调整,得到两种自适应结构.实验表明:与传统结构相比,结构一各类资源占用为原来的1~2.5倍,而性能提高最大为原来的3.99倍,但仅在缩小时存在性能提升,适用于仅存在缩小的场合(如纹理的MIPMAP);结构二各类资源占用为原来的1.7~2.5倍,而性能提高最大为原来的3.98倍,在缩小与放大时均存在性能提升,适用于放大缩小同时存在的场合(如图像的缩放).
- 任向隆田泽田泽韩立敏张骏范飞虎
- 关键词:缩放自适应结构