龙翀
- 作品数:8 被引量:10H指数:2
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 手写中文地址识别后处理方法的研究被引量:6
- 2006年
- OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66%,错误率下降了65.93%,大大提高了系统的性能。
- 龙翀庄丽朱小燕黄开竹孙俊堀田悦伸直井聡
- 关键词:模式识别OCR语言模型
- 基于多粒度的统计语言模型的研究以及在OCR后处理中的应用
- 龙翀
- 关键词:统计语言模型粒度OCRGRANULARITYOCR
- 多个对象间信息度量的研究及应用
- 龙翀
- 关键词:信息距离文本挖掘
- 印刷体汉字识别后处理方法的研究被引量:5
- 2009年
- 高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。
- 张宏涛龙翀朱小燕孙俊
- 关键词:中文信息处理汉字识别OCR语言模型