江西省自然科学基金(2007GZS0082)
- 作品数:3 被引量:12H指数:3
- 相关作者:万常选刘德喜刘喜平王芳王芳更多>>
- 相关机构:江西财经大学南昌大学更多>>
- 发文基金:江西省自然科学基金国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种二维的树型文档结构相似性度量
- 研究了树型文档的结构相似性度量,提出了一种二维的树型文档结构相似性度量方法.该方法首先计算文档树的结构摘要以对树型文档进行约简.然后,提出了两个特征集,它们分别从不同的角度反映了摘要树中的结构特征,而且相互补充.与这两个...
- 刘喜平万常选
- 文献传递
- 有效的XML模糊内容与结构检索和计分被引量:5
- 2010年
- XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索.提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择.这种方法分3步进行:首先,一个CAS查询被分解为若干个查询片段;然后处理每个查询片段;最后,将每个查询片段得到的部分查询结果综合起来,得到最终的查询结果.提出了一种新的计分方案,它首先计算一个查询结果在每个查询片段上的得分,然后将这些得分总和起来得到最终得分.提出的计分方法根据检索结果内容和结构两方面的相关性计分,更符合用户查询意图和查询语义.大量的实验结果验证了提出方法的有效性.
- 刘喜平万常选刘德喜
- 关键词:XML信息检索
- XML检索中基于聚类的查询词扩展被引量:3
- 2009年
- XML文档是一种半结构化的数据,它包含的结构信息可有效解决传统文本信息检索中存在的语言二义性等问题。但用户提出的查询质量低并没有得到解决,因此需要通过反馈等手段来解决这一问题。该文提出了一种基于聚类的XML信息检索的查询词扩展方法,利用聚类手段来确定用户查询的对应检索结果的特征,通过提取这些特征来进行查询词扩展,得到更全面的反映用户查询意图的查询条件,提高检索的查全率与查准率。
- 黄子越万常选
- 关键词:聚类信息检索查询扩展XML文档
- 基于可信度的中文完整词自动识别被引量:4
- 2009年
- 中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。
- 王芳王芳
- 关键词:计算机应用中文信息处理中文分词互信息自动识别
- 有效的XML模糊内容与结构检索和计分
- XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索。提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择。这种...
- 刘喜平万常选刘德喜
- 关键词:XML信息检索
- 文献传递
- 基于可信度的中文完整词自动识别
- 中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的...
- 王芳万常选
- 关键词:中文分词互信息自动识别
- 文献传递