您的位置: 专家智库 > >

王晓霞

作品数:6 被引量:10H指数:2
供职机构:渤海大学大学基础教研部更多>>
发文基金:国家自然科学基金辽宁省博士科研启动基金辽宁省科技厅基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 4篇自动化与计算...
  • 2篇电子电信

主题

  • 5篇串匹配
  • 4篇近似串匹配
  • 4篇Q
  • 3篇GRAM
  • 2篇语法
  • 2篇索引
  • 2篇串匹配算法
  • 2篇大数据
  • 1篇倒排索引
  • 1篇数据集
  • 1篇数据清洗
  • 1篇索引结构
  • 1篇中文
  • 1篇种子
  • 1篇命中
  • 1篇哈希
  • 1篇MAPRED...
  • 1篇大数据集

机构

  • 6篇渤海大学

作者

  • 6篇孙德才
  • 6篇王晓霞

传媒

  • 3篇计算机科学
  • 2篇电子设计工程
  • 1篇计算机技术与...

年份

  • 1篇2017
  • 1篇2016
  • 1篇2015
  • 3篇2014
6 条 记 录,以下是 1-6
排序方式:
应用Q-gram命中特征优化的近似串匹配算法
2016年
近似串匹配是文本检索、生物信息学和信号处理等领域的研究基础。为提高近似串匹配速度,采用分块的方法从匹配串中提取了新的q-gram命中特征,结合新特征提出了一种新的近似串匹配算法。实验数据表明新算法消耗了少量的过滤时间就获得了较高的过滤效率,结果显示新算法在各种匹配错误率下的匹配速度一直比经典的SWIFT算法快。
王晓霞孙德才
关键词:近似串匹配
一种基于尾匹配q-gram的近似串匹配算法被引量:1
2014年
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。
孙德才王晓霞
关键词:近似串匹配
一种支持多种子近似串匹配的q-gram索引被引量:3
2014年
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。
孙德才王晓霞
关键词:大数据近似串匹配种子
近似串匹配过滤算法研究被引量:1
2015年
近似串匹配在众多研究领域都有广泛的应用,如文本检索、生物信息学等。文中对基于过滤技术的Off-line模式近似串匹配算法进行了相关研究。首先介绍了串匹配的基础知识和近似串匹配技术的应用分类;然后阐述了Off-line模式近似串匹配算法常用的索引结构;接着详细介绍了近似串匹配过滤算法的研究现状,并阐述了几个经典过滤算法的过滤原理;最后在实验中对比了这些经典过滤算法的性能差异,实验数据显示提高过滤效率和减少过滤时间是加快过滤算法匹配速度所要解决的关键问题。研究表明,基于留空q-gram的过滤算法是近似串匹配未来研究的方向。
孙德才王晓霞
关键词:串匹配近似串匹配
一种基于MapReduce的大数据集相似自连接算法被引量:3
2017年
如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题,在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件,在验证阶段又采用了生成正反候选对和组合id等去冗余技术,并且读取原始字符串内容时只需读取数据集一次。实验数据显示,改进算法无论在过滤阶段还是在验证阶段都减少了算法的CPU时耗,结果表明所提改进策略是有效的。
孙德才王晓霞
关键词:大数据MAPREDUCE数据清洗
一种基于Bigram二级哈希的中文索引结构被引量:2
2014年
为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。
孙德才王晓霞
关键词:串匹配中文倒排索引
共1页<1>
聚类工具0