您的位置: 专家智库 > >

孟凡亮

作品数:1 被引量:3H指数:1
供职机构:北京石油化工学院信息工程学院计算机系更多>>
发文基金:国家部委预研基金北京市教委资助项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇娱乐
  • 1篇去重
  • 1篇去重算法
  • 1篇文档
  • 1篇文档相似度
  • 1篇相似度
  • 1篇新词识别
  • 1篇关键词提取

机构

  • 1篇北京石油化工...

作者

  • 1篇沙芸
  • 1篇张国英
  • 1篇孟凡亮

传媒

  • 1篇广西师范大学...

年份

  • 1篇2007
1 条 记 录,以下是 1-1
排序方式:
基于关键词提取的娱乐新闻文档去重算法被引量:3
2007年
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档。实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%-30%。
沙芸张国英孟凡亮
关键词:关键词提取新词识别文档相似度
共1页<1>
聚类工具0