您的位置: 专家智库 > >

中央高校基金(2009YJS026)

作品数:1 被引量:5H指数:1
相关作者:于剑景丽萍朱岩更多>>
相关机构:北京交通大学更多>>
发文基金:国家自然科学基金中央高校基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息熵
  • 1篇文本
  • 1篇文本分类

机构

  • 1篇北京交通大学

作者

  • 1篇朱岩
  • 1篇景丽萍
  • 1篇于剑

传媒

  • 1篇计算机研究与...

年份

  • 1篇2012
1 条 记 录,以下是 1-1
排序方式:
一种利用近邻和信息熵的主动文本标注方法被引量:5
2012年
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.
朱岩景丽萍于剑
关键词:信息熵
共1页<1>
聚类工具0