孙萍
- 作品数:4 被引量:17H指数:2
- 供职机构:江苏大学更多>>
- 发文基金:国家自然科学基金江苏省普通高校研究生科研创新计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于属性选择的半监督短文本分类算法被引量:8
- 2010年
- 针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。
- 蔡月红朱倩孙萍程显毅
- 关键词:半监督学习文本分类
- 面向事件的多文档文摘生成算法的研究被引量:1
- 2011年
- 针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题。本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文档所携带的后续报道信息(纵向文摘)。实验结果表明,本方法在信息覆盖率、信息冗余度和文摘流利度方面比TF×IDF方法有很大的改进。
- 程显毅潘燕朱倩孙萍
- 关键词:多文档文摘HNC自然语言处理
- 面向事件的多文档自动文摘研究
- 一个主题下可以有多个事件,主题是抽象的,事件是具体的,同主题下的事件具有相似性。本文主要对相同主题下的不同新闻报道进行事件识别,对同一事件的文本进行聚类,研究面向事件的多文档文摘的自动生成,以解决多文档文摘质量不高,文摘...
- 孙萍
- 关键词:多文档自动文摘HNC自然语言处理
- 文献传递
- 基于HNC的中文文本校对系统模型的研究被引量:8
- 2009年
- 针对中文文本在语法错误和语义错误校对方面存在的问题,基于HNC理论构建了一个中文文本校对系统模型,该模型利用传统查错系统和HNC句类分析系统相结合的方法,并对日常报刊杂志100篇文章进行了实验,与word2003查错系统相比,在解决语法层次和语义层次上的错误,该方法有明显优势.
- 程显毅孙萍朱倩
- 关键词:自然语言文本校对HNC语义