陈华辉 作品数:97 被引量:319 H指数:9 供职机构: 宁波大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 浙江省自然科学基金 宁波市自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 理学 更多>>
LSM树中基于热度预测的异构布隆过滤器方案 被引量:4 2021年 日志结构合并(Log-Structured-Merge,LSM)树中常使用布隆过滤器减少无效磁盘I/O.但是用户无法无限制地细化布隆过滤器的粒度,原因是在一些数据量庞大而数据项较小的工作流中,这些元数据需要占用大量存储空间.其次在一些内存受限的环境下,内存缓冲区无法容纳更多的过滤器数据,造成缓冲区与磁盘的频繁数据交换.针对上述问题本文提出LSM树中的异构布隆过滤器方案,在LSM树的每一层维护热度预测模型,新生成的SSTable通过预测的热度来分配不同粒度的布隆过滤器,然后使用特定缓存管理方案来维护缓存中的过滤器数据并处理工作流热度发生改变的情况.实验证明,本文的方案在保持相同外存占用与内存消耗的情况下,读取吞吐量比采用原始LSM树结构的LevelDB提升22%~53%. 俞加平 陈华辉 钱江波 董一鸿关键词:读取性能 布隆过滤器 存储管理 一种自适应子空间相似性搜索方法 被引量:1 2015年 近年来,在多媒体信息检索、相似性连接和时问序列匹配等数据库领域的相似搜索研究备受关注。绝大部分工作都是在欧式空间条件下,使用度量距离函数计算最近邻(如kNN、kNNJ)来解决搜索目标集合问题。但已有研究表明,此条件下的搜索结果准确性很容易受到高差异维度的影响,且对应的解决方案尚缺乏灵活性和顽健性。首先提出了单机环境下动态子空间(部分维度)下相似搜索问题及解决方案。随着数据规模的扩大,单机算法不能很好地扩展,随之又提出了Hadoop框架下的分布式算法。实验证实,在不影响准确率的情况下,分布式算法的性能要优于集中式算法。 任建新 陈华辉关键词:相似性搜索 一个组态系统的设计与实现 被引量:38 2000年 组态系统是一个生成具体软件的软件系统,它根据工业生产现场的具体描述和用户的需求让计算机直接生成面向特定工业生产对象的过程监控系统。本文介绍了适合于我国中小企业的组态系统的设计方法和实现过程。 王让定 陈华辉 薛春阳关键词:组态系统 工业过程控制 监控系统 一种基于高维数据过滤器的近似成员查询方法 本发明公开了一种基于过滤器的高维数据近似成员查询方法,通过定义新的距离敏感哈希函数支持的新结构<Image file="DDA0000593739590000011.GIF" he="158" imgContent="d... 陈叶芳 钱江波 陈华辉文献传递 一种用于海明空间下近似成员查询的布隆过滤电路 本发明公开了一种用于海明空间下近似成员查询的布隆过滤电路,特点是包括多个并联的过滤单元和一个或门,过滤单元的输入端与输入信号连接,过滤单元的输出端与或门的输入端连接,或门的输出端输出过滤信号,优点在于多个并联的过滤单元和... 钱昱成 钱江波 黄志鹏 陈叶芳 陈华辉位置隐私保护下的连续最近邻查询 2016年 已有的位置隐私保护下的连续最近邻查询往往采用snapshot方式进行,导致较高的中央处理器开销.为此,研究了基于位置隐私的连续最近邻查询,提出了基于重用技术的位置隐私保护的连续最近邻查询算法.该算法利用相邻时刻查询结果集的相似性来减少计算成本,从而实现答案集的快速更新,可大大加快系统响应时间.实验结果表明了该算法的有效性. 王勇 董一鸿 钱江波 陈华辉关键词:位置隐私 最近邻查询 连续查询 基于随机投影的并行数据流聚类方法 被引量:4 2009年 利用数据流的遗忘特性,应用随机投影,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流和聚类中心之间的近似距离,实现一种适合并行多数据流的K-means聚类方法.所进行的实验验证该方法的有效性. 陈华辉 施伯乐关键词:数据流 基于合并的DTN订阅查询传输协议 被引量:2 2013年 DTN是从自组织无线网络中抽象出来的网络模型,它不要求网络的全连通,因此更适合实际自组网的需求。大部分DTN传输协议研究的是如何把数据高效、无区分地传给汇聚点。本文提出的基于合并的DTN订阅查询传输协议(如SMR),充分利用DTN节点自身的处理能力,能够在有限的时间内利用节点间的每一次相遇机会尽可能多且有效地传输有用信息。实验结果显示,随着传输时间的延长,SMR在DTN广播式订阅查询系统和洪泛式订阅查询系统中都显示了良好的性能,增强了DTN订阅查询系统的实时性需求。 曹佩 钱江波 陈叶芳 陈华辉关键词:延迟容忍网络 一种基于潜在语义索引的“垃圾”邮件过滤方法 被引量:31 2000年 提出了一种基于潜在语义索引(LSI)的“垃圾”邮件过滤方法,讨论了邮件概念空间的构造,该空间中邮件相似度的计算和“垃圾”邮件的过滤。 陈华辉关键词:信息检索 电子邮件 潜在语义索引 垃圾邮件 大规模复杂网络下重叠社区的识别 被引量:3 2015年 随着网络规模的不断扩大,经典的复杂网络重叠社识别算法已不能高效处理现有的大规模网络图数据.本文在GraphLab并行计算模型上提出了基于重要节点扩展的重叠社区识别算法DOCVN(Detecting the Overlapping Community algorithm based on Vital Node Expanding in GraphLab).算法选取网络中PageRank值大的节点作为重要节点,计算其他节点归属于重要节点的节点归属度,并以重要节点为中心形成核心社区及扩展社区,最后根据重要节点间的连接紧密度合并核心社区及扩展社区,并计算出每个节点在所属社区里的节点重要度,实现了大规模网络的重叠社区识别.实验表明该算法与PD(Propinquity Dynamics)等现有并行算法相比更能有效地识别大规模网络的重叠社区结构. 王诗懿 董一鸿 李志超 陈华辉 钱江波关键词:社会网络