您的位置: 专家智库 > >

国家高技术研究发展计划(2002AA11401)

作品数:3 被引量:46H指数:3
相关作者:陈肇雄冯冲黄河燕王江伟张亮更多>>
相关机构:中国科学技术大学中国科学院南京理工大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 1篇督导
  • 1篇短语
  • 1篇信息处理
  • 1篇语言模型
  • 1篇条件随机域
  • 1篇中文
  • 1篇中文分词
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇主动学习策略
  • 1篇组织机构
  • 1篇最大熵
  • 1篇最大熵模型
  • 1篇名词
  • 1篇名词短语
  • 1篇命名实体识别
  • 1篇机构名识别
  • 1篇机器翻译
  • 1篇翻译
  • 1篇分词

机构

  • 3篇中国科学院
  • 3篇中国科学技术...
  • 1篇南京理工大学

作者

  • 3篇黄河燕
  • 3篇冯冲
  • 3篇陈肇雄
  • 1篇关真珍
  • 1篇张亮
  • 1篇王江伟

传媒

  • 2篇小型微型计算...
  • 1篇中文信息学报

年份

  • 3篇2006
3 条 记 录,以下是 1-3
排序方式:
基于Multigram语言模型的主动学习中文分词被引量:8
2006年
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
冯冲陈肇雄黄河燕关真珍
关键词:中文信息处理分词EM算法
采用主动学习策略的组织机构名识别被引量:17
2006年
组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖,本文提出了一种基于主动学习的训练策略,改进了基本的最大熵模型的解码算法和训练过程.实验表明采用主动学习策略的最大熵模型训练算法能够有效减少标注数据的使用.
冯冲陈肇雄黄河燕
关键词:命名实体识别最大熵模型
基于条件随机域的复杂最长名词短语识别被引量:22
2006年
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.
冯冲陈肇雄黄河燕张亮王江伟
关键词:条件随机域机器翻译
共1页<1>
聚类工具0