姜进磊
- 作品数:84 被引量:176H指数:9
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术经济管理生物学自然科学总论更多>>
- 生物信息学社区数据空间的设计与实现
- 针对现有网格系统缺乏专有文件系统,导致数据在终端与网格间的传递以及数据在网格环境中的迁移、共享与管理比较困难的问题,利用清华云计算平台,以其中的分布式文件系统Cartier为底层、Corsair为存储管理软件,为用户设计...
- 张金姜进磊方睿武永卫
- 关键词:生物信息学中国国家网格数据空间数据共享云计算分布式文件系统
- 基于图划分抽样算法的图表示学习被引量:2
- 2020年
- 在基于神经网络的图表示算法中,当节点属性维度过高、图的规模过大时,从内存到显存的数据传输会成为训练性能的瓶颈。针对这类问题,该方法将图划分算法应用于图表示学习中,降低了内存访问的I/O开销。该方法根据图节点的度数,将图划分成若干个块,使用显存缓存池存储若干个特征矩阵块。每一轮训练,使用缓存池中的特征矩阵块,以此来减少内存到显存的数据拷贝。针对这一思想,该方法使用基于图划分的抽样算法,设计显存的缓存池来降低内存的访问,运用多级负采样算法,降低训练中负样本采样的时间复杂度。在多个数据集上,与现有方法对比发现,该方法的下游机器学习准确率与原算法基本一致,训练效率可以提高2~7倍。实验结果表明,基于图划分的图表示学习能高效训练模型,同时保证节点表示向量的测试效果。今后的课题可以使用严谨的理论证明,阐明图划分模型与原模型的理论误差。
- 夏鑫高品陈康姜进磊
- 关键词:图划分
- 图数据处理方法及装置
- 本申请实施例中提供了图数据处理方法及装置,其中所述方法包括收集计算节点中的图数据,其中,所述图数据至少包括图顶点数据,所述计算节点包括一个第一计算节点和多个第二计算节点,所述第一计算节点用于分配所述图顶点数据的计算任务至...
- 姜进磊武永卫陈康郑锦帆
- 时序图随机游走的采样方法及装置
- 本申请实施例提供一种时序图随机游走的采样方法及装置,该采样方法包括:在对时序图进行随机游走的多轮采样时,确定本轮采样的当前顶点,并获取所述当前顶点对应的数据块的前缀和数组;生成第一随机数,根据第一随机数确定待采样的目标数...
- 姜进磊武永卫陈康宦成颖
- 改善RDMA单边操作可扩展性的自适应优化方法及系统
- 本发明涉及系统软件技术领域,特别涉及一种改善RDMA单边操作可扩展性问题的自适应优化方法及系统。本发明主要技术方案是:初始化线程期间,按照线程感知的方式分配RDMA资源,确保发送RDMA请求的数据通路不会发生线程间锁同步...
- 武永卫陈康姜进磊任峰
- 业务行为感知的对象存储元数据分级存储方法与系统
- 本发明涉及分布式存储技术领域,特别涉及业务行为感知的对象存储元数据分级存储方法与系统。本发明提出了一种既不影响性能,又不需要将所有的元数据都放置于SSD中的方法。该方法首先对业务访问数据和元数据的行为进行统计,然后根据元...
- 武永卫陈岩姜进磊任峰
- 非易失性数据的访问方法、系统、电子设备和介质
- 本申请涉及一种非易失性数据的访问方法和非易失性数据存储系统。该非易失性数据的访问方法,应用于第一终端,包括:从所述第一终端的缓存获取数据;对于未能从所述缓存获取的数据,通过远程直接内存读从第二终端的非易失内存获取;执行修...
- 武永卫陈康姜进磊马腾
- 文献传递
- 一种图数据的查询方法、系统及装置
- 本发明提供了一种图数据的查询方法、系统及装置,所述查询方法包括:将图数据划分为多个分片存储,且对于每个分片,配置一个独立的处理单元;根据用户提供的查询请求,将图查询分解为对分片数据和状态访问的遍历操作,其中,该遍历操作由...
- 章明星武永卫陈劭源姜进磊郑纬民
- 数据存储方法和装置,数据恢复方法和装置
- 本申请涉及一种数据存储方法、数据恢复方法、数据存储装置和数据恢复装置。该数据存储方法包括:获取第一待存储对象;基于几何序列将所述第一待存储对象划分为多个块,每个块的大小为所述几何序列的第一项的值与公共比率的乘积;以及,将...
- 陈康武永卫姜进磊闪英迪
- 文献传递
- 典型大数据计算框架分析被引量:21
- 2016年
- 认为大数据计算技术已逐渐形成了批量计算和流计算两个技术发展方向。批量计算技术主要针对静态数据的离线计算,吞吐量好,但是不能保证实时性;流计算技术主要针对动态数据的在线实时计算,时效性好,但是难以获取数据全貌。从可扩展性、容错性、任务调度、资源利用率、时效性、输入输出(IO)等方面对现有的主流大数据计算框架进行了分析与总结,指出了未来的发展方向和研究热点。
- 赵晟姜进磊
- 关键词:流计算