中央高校基本科研业务费专项资金(2012HGXJ0109)
- 作品数:2 被引量:0H指数:0
- 相关作者:李康熙李为山更多>>
- 相关机构:合肥工业大学南京大学更多>>
- 发文基金:中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于互联网1至5元文法语料库的多词表达自动提取
- 2013年
- 多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。
- 李康熙李为山
- 关键词:自然语言处理数据稀疏
- 基于转换的错误驱动与决策树算法的句子边界自动识别
- 2012年
- 结合基于转换的错误驱动算法和决策树算法,并综合考虑句点标记在语料库中的复杂使用情况,生成能够自动划分英语句子边界的程序。实验结果表明,该方法具有较高的准确率,能够为后续语料库加工提供良好的前提基础。
- 李康熙李为山
- 关键词:句子边界识别决策树算法