您的位置: 专家智库 > >

何维

作品数:3 被引量:14H指数:2
供职机构:大连理工大学管理学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 2篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...
  • 1篇语言文字

主题

  • 1篇信息资源
  • 1篇信息资源管理
  • 1篇中文
  • 1篇中文文本
  • 1篇主题
  • 1篇主题句
  • 1篇网页
  • 1篇网页文本
  • 1篇文本表示
  • 1篇文本分类
  • 1篇文本复制
  • 1篇相似度
  • 1篇句子
  • 1篇句子相似度
  • 1篇SENTEN...
  • 1篇TEXT
  • 1篇BAG
  • 1篇COPY
  • 1篇SIMILA...

机构

  • 3篇大连理工大学

作者

  • 3篇王宇
  • 3篇何维
  • 1篇王森

传媒

  • 1篇情报学报
  • 1篇现代图书情报...

年份

  • 3篇2009
3 条 记 录,以下是 1-3
排序方式:
基于句子的文本表示及中文文本分类研究被引量:4
2009年
文本挖掘技术是信息资源管理的一项关键技术。向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息。为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性。实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的。
何维王宇
关键词:信息资源管理文本表示文本分类
基于句子关系图的网页文本主题句抽取被引量:10
2009年
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。
何维王宇
关键词:主题句句子相似度
基于句子包相似度的文本复制检测研究
术论文的复制检测研究进行了概述和分析.为实现语义相同写法不同的文本的复制检测,提出基于句子包相似度的复制检测算法.该算法注重从句子语义的角度计算句子间的相似度,首先把文本切分成句子包,然后定义并计算句子的相似度,再在此基...
王宇王森何维
关键词:TEXTCOPYSENTENCEBAGSIMILARITYSENTENCETEXT
共1页<1>
聚类工具0