公共文化服务平台

2025年1月24日星期五

|

欢迎来到南京江宁区图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

王晓霞: 作品数：6 被引量：10H指数：2; 供职机构：渤海大学大学基础教研部更多>>; 发文基金：国家自然科学基金辽宁省博士科研启动基金辽宁省科技厅基金更多>>; 相关领域：自动化与计算机技术电子电信更多>>

合作作者

孙德才渤海大学信息科学与技术学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

6篇中文期刊文章

领域

4篇自动化与计算...
2篇电子电信

主题

5篇串匹配
4篇近似串匹配
4篇Q
3篇GRAM
2篇语法
2篇索引
2篇串匹配算法
2篇大数据
1篇倒排索引
1篇数据集
1篇数据清洗
1篇索引结构
1篇中文
1篇种子
1篇命中
1篇哈希
1篇MAPRED...
1篇大数据集

机构

6篇渤海大学

作者

6篇孙德才
6篇王晓霞

传媒

3篇计算机科学
2篇电子设计工程
1篇计算机技术与...

年份

1篇2017
1篇2016
1篇2015
3篇2014

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

应用Q-gram命中特征优化的近似串匹配算法: 2016年; 近似串匹配是文本检索、生物信息学和信号处理等领域的研究基础。为提高近似串匹配速度,采用分块的方法从匹配串中提取了新的q-gram命中特征,结合新特征提出了一种新的近似串匹配算法。实验数据表明新算法消耗了少量的过滤时间就获得了较高的过滤效率,结果显示新算法在各种匹配错误率下的匹配速度一直比经典的SWIFT算法快。; 王晓霞孙德才; 关键词：近似串匹配

一种基于尾匹配q-gram的近似串匹配算法被引量：1: 2014年; 近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。; 孙德才王晓霞; 关键词：近似串匹配

一种支持多种子近似串匹配的q-gram索引被引量：3: 2014年; 如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。; 孙德才王晓霞; 关键词：大数据近似串匹配种子

近似串匹配过滤算法研究被引量：1: 2015年; 近似串匹配在众多研究领域都有广泛的应用,如文本检索、生物信息学等。文中对基于过滤技术的Off-line模式近似串匹配算法进行了相关研究。首先介绍了串匹配的基础知识和近似串匹配技术的应用分类;然后阐述了Off-line模式近似串匹配算法常用的索引结构;接着详细介绍了近似串匹配过滤算法的研究现状,并阐述了几个经典过滤算法的过滤原理;最后在实验中对比了这些经典过滤算法的性能差异,实验数据显示提高过滤效率和减少过滤时间是加快过滤算法匹配速度所要解决的关键问题。研究表明,基于留空q-gram的过滤算法是近似串匹配未来研究的方向。; 孙德才王晓霞; 关键词：串匹配近似串匹配

一种基于MapReduce的大数据集相似自连接算法被引量：3: 2017年; 如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题,在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件,在验证阶段又采用了生成正反候选对和组合id等去冗余技术,并且读取原始字符串内容时只需读取数据集一次。实验数据显示,改进算法无论在过滤阶段还是在验证阶段都减少了算法的CPU时耗,结果表明所提改进策略是有效的。; 孙德才王晓霞; 关键词：大数据 MAPREDUCE 数据清洗

一种基于Bigram二级哈希的中文索引结构被引量：2: 2014年; 为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。; 孙德才王晓霞; 关键词：串匹配中文倒排索引

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@南京江宁区图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张