刘异
- 作品数:2 被引量:8H指数:2
- 供职机构:湖南师范大学文学院更多>>
- 发文基金:国防科技技术预先研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于词条组合的军事类文本分词方法被引量:2
- 2010年
- 针对传统的分词方法切分军事类文本存在未登录词多和部分词条特征信息不完整的问题,提出把整个分词过程分解为若干子过程,以词串为分词单位对军事类文本进行分词。首先基于词典对文本进行双向扫描,标识歧义切分字段,对切分结果一致的字段进行停用词消除,计算第一次分词得到的词条间的互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串并标识,最后提取所标识的歧义字段和词串由人工对其进行审核处理。实验结果表明,词条组合后的词串的特征信息更丰富,分词效果更好。
- 黄魏高兵刘异杨克巍
- 关键词:军事文本分词词条
- 基于词条组合的中文文本分词方法被引量:7
- 2010年
- 针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。
- 黄魏高兵刘异杨克巍
- 关键词:文本文本特征分词词条