滕海明
- 作品数:4 被引量:10H指数:2
- 供职机构:浙江大学公共管理学院信息资源管理系更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于语义标记树的XML文档聚类研究被引量:5
- 2012年
- 近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.
- 潘有能滕海明
- 关键词:XML聚类WORDNET
- 基于WordNet的XML文档标记语义消歧研究被引量:5
- 2014年
- XML文档中的标记是表达和控制文档内容的重要组成部分,但用户自行定义的标记往往存在语义歧义问题,对这些标记进行语义消歧是计算XML文档间语义相似度的前提,也是XML文档自动聚类和自动分类的基础。和传统的词典不同,WordNet中的词汇以树状层次结构排列,与XML文档解析后得到的标记树结构类似,为语义消歧提供了良好的、方便应用的工具。本文在阐述目前已有语义消歧算法的基础上,分析了基于WordNet的XML文档标记语义消歧的可行性,并详细说明了具体的流程。从实验结果可以看出,该方法能达到较高的语义消歧准确度。
- 潘有能滕海明
- 关键词:XML文档WORDNET
- 基于语义标记树的XML文档聚类研究
- XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。本文在对X...
- 滕海明
- 关键词:WORDNET语义相似度聚类
- 文献传递
- Web信息采集技术概述
- 采集是信息处理工作的起点。通过叙述Web信息采集工作模型、信息处理算法等内容,概述了当前Web信息采集技术领域研究情况和特点。
- 张力滕海明
- 文献传递