何颂颂
- 作品数:15 被引量:30H指数:4
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种基于龙芯3A的单精度矩阵乘法优化方法
- 本发明公开了一种基于龙芯3A的单精度矩阵乘法优化方法,特征是先将龙芯3A的两个单精度源矩阵按分别不大于一级缓存一半和不大于二级缓存一半的原则划分为两个子矩阵;在龙芯3A的32位访存指令、单精度浮点乘加指令和预取指令的矩阵...
- 顾乃杰何颂颂张斌许耿纯
- 龙芯3A上复数矩阵乘法的多线程优化被引量:1
- 2011年
- BLAS库分为两类函数运算:复数函数与实数函数。矩阵乘法函数是BLAS库的核心函数,BLAS库中的许多函数在实现时都调用了矩阵乘法函数。文章结合龙芯3A体系结构的特点,通过对矩阵乘法计算过程的分析选择了先对矩阵分块然后进行任务划分的方式,从而减少了数据拷贝数量,提高了拷贝数据的利用率,并运用循环展开、指令调度、数据分块等技术对子线程的运算进行了优化。优化后的ZGEMM函数的多线程运算速度是ATLAS库的两倍。
- 陈强何颂颂王坤
- 关键词:多线程
- 一种基于龙芯3A的单精度矩阵乘法优化方法
- 本发明公开了一种基于龙芯3A的单精度矩阵乘法优化方法,特征是先将龙芯3A的两个单精度源矩阵按分别不大于一级缓存一半和不大于二级缓存一半的原则划分为两个子矩阵;在龙芯3A的32位访存指令、单精度浮点乘加指令和预取指令的矩阵...
- 顾乃杰何颂颂张斌许耿纯
- 文献传递
- 面向龙芯3A体系结构的BLAS库优化被引量:8
- 2012年
- 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
- 何颂颂顾乃杰朱海涛刘燕君
- 关键词:矩阵乘法BLASLINPACK
- 基于资源密度与节点管理的P2P随机搜索算法设计
- 现有的P2P搜索算法对资源特性考虑较少,文中充分考虑了资源的密度信息对搜索效率的影响,设计了动态的密度调节策略和动态的智能节点管理方案,并基于此提出了改进的多路随机算法SNKR。SNKR算法的设计基于资源密度信息,并且使...
- 谢静顾乃杰田舟贤何颂颂
- 关键词:P2P网络资源密度智能节点
- 文献传递
- 基于用户兴趣的P2P资源搜索算法设计与分析被引量:4
- 2008年
- P2P搜索效率跟P2P用户的特性相关,本文将基于P2P用户的群聚特性,在纯P2P网络之上,构建基于用户兴趣的覆盖网络,并设计相应的资源搜索策略.本文通过计算节点间的相似度来构建覆盖网络,根据查询请求和节点的相关度来决定搜索策略并从理论上证明了本文提出的搜索算法的性能优于随机漫步和简单洪泛.实验结果显示,本文提出的搜索算法的平均搜索时间和消息复杂度均优于随机漫步搜索算法.
- 何颂颂顾乃杰田舟贤谢静
- 关键词:P2P资源搜索
- 多核龙芯3A上二级BLAS库的优化被引量:9
- 2011年
- 针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助。
- 李毅何颂颂李恺
- 关键词:龙芯3ABLASGER多线程
- 资源密度对P2P搜索算法的影响
- 2009年
- 在无结构P2P网络中,资源密度影响搜索算法的搜索时间、通信开销以及搜索策略的设计与选取。在资源随机分布的假设下分析了资源密度同搜索性能的关系,给出了随机漫步和洪泛搜索的平均搜索时间和通信开销下界,并分析得出结论:增加资源备份或者降低节点被重复搜索的概率能显著提升稀有资源的搜索性能,但较难提升稠密资源的搜索性能。基于上述理论分析,提出了一个随机漫步改进算法以验证结论。仿真实验表明,实验数据同理论分析结果符合。
- 田舟贤顾乃杰何颂颂李恺
- 关键词:资源密度随机漫步无结构对等网络
- 基于资源密度与节点管理的P2P随机搜索算法设计被引量:2
- 2007年
- 现有的P2P搜索算法对资源特性考虑较少,文中充分考虑了资源的密度信息对搜索效率的影响,设计了动态的密度调节策略和动态的智能节点管理方案,并基于此提出了改进的多路随机算法SNKR。SNKR算法的设计基于资源密度信息,并且使用智能节点协助搜索,具有较小的消息复杂度。实验仿真结果显示,与简单多路随机算法相比,SNKR在搜索时间上改进约10% ̄40%,同时很好的控制了总的消息数和重复访问节点的比例。
- 谢静顾乃杰田舟贤何颂颂
- 关键词:P2P网络资源密度智能节点
- 基于龙芯3B的H.264解码器的向量化被引量:3
- 2010年
- 本文实现了ffmpeg解码器到龙芯3B平台的移植,并针对龙芯3B所支持的向量扩展指令,对ffmpeg解码器进行了向量化。实验结果表明:实现向量化的ffmpeg解码器,其性能比使用GCC向量化编译得到的ffmpeg解码器具有更好的性能,而且性能提升的比率比在一些商业平台上更大。
- 裴晓航何颂颂
- 关键词:H.264FFMPEG解码器向量化