福建省自然科学基金(2013J05099) 作品数:5 被引量:28 H指数:3 相关作者: 林子雨 张东站 薛永生 杨思颖 赖明星 更多>> 相关机构: 厦门大学 更多>> 发文基金: 国家自然科学基金 福建省自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于关系数据库的top-k聚合关键词查询 被引量:3 2014年 基于关系数据库的关键词查询,使得用户在不需要掌握结构化查询语言和数据库模式的情况下,可以方便地进行关系数据库查询.给定一个关键词查询,已有的方法通过数据库中的主外键关联,查询得到包含关键词的元组集合.但是,在很多实际应用中,元组集合的聚合结果对用户更有价值;研究了基于关系数据库的top-k聚合关键词查询,提出了基于递归的聚合单元枚举算法——基于递归的完全搜索(recursion-based full search,RFS).为了获得更好的查询性能,设计了新的排序方法、二维索引和快速搜索算法——基于输出的快速搜索(output-based quick search,OQS),从而可以高效地枚举top-k个聚合单元;在不同的数据集上进行了大量的实验,实验结果表明OQS算法具有良好的查询性能. 张东站 苏志锋 林子雨 薛永生关键词:关系数据库 排序 基于同义词词林和《知网》的短语主题提取 被引量:8 2015年 提出了利用主题词存在与否的基于主题词的短语抽取算法,并在其基础上利用社会知识词簇集合作为分类信息,词的相似度作为距离权重,利用改进K最近邻分类算法(KNN)的分类思想,提出基于《知网》词相似度的短语主题抽取算法.并在其基础上提出一种根据中文表达习惯的基于加权主题词的短语主题抽取算法.实验结果表明,后两种算法对短语主题抽取效果良好,平均查全率分别达到78.88%和83.39%,平均查准率达99.06%和99.70%. 曾聪 张东站关键词:主题抽取 同义词词林 知网 基于替换概率的闪存数据库缓冲区替换算法 被引量:12 2013年 闪存具有和传统磁盘不同的特性,包括写前擦除、异地更新、读写延迟非对称等.传统的面向磁盘的缓冲区替换算法无法在闪存数据库系统中获得较好的性能.文中提出了一种新的面向闪存数据库的缓冲区替换算法——APB-LRU,其特点:(1)该算法将缓冲区分为冷区和热区,用来捕获数据访问频度,前者用于存放只访问过一次的数据页,后者用于存放至少访问过两次的数据页;(2)采用了其它研究所没有的概率替换机制,即以较大的概率替换冷区中的干净页,以较小的概率替换冷区中的脏页,从而避免了冷脏页长期驻留缓冲区的情况,提高了命中率,获得了较好的整体性能;(3)设计了冷、热区比例动态变化机制,可以根据工作负载的变化动态调整冷、热区所占缓冲区的比例,从而使得替换算法在不同的负载模式下都可以取得较好的性能.基于不同测试数据集的大量实验结果表明,APB-LRU算法具有比其它已有的算法更好的性能. 林子雨 赖明星 邹权 薛永生 杨思颖关键词:闪存 数据库 基于逆概念频率的词语相似度计算 被引量:1 2015年 词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%. 孙晶 张东站关键词:知网 词语相似度 基于改进k-medoids算法的XML文档聚类 被引量:4 2015年 XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。 冯少荣 潘炜炜 林子雨关键词:遗传算法 模糊聚类 聚类个数 聚类中心