河北省自然科学基金(F2004000132)
- 作品数:14 被引量:24H指数:3
- 相关作者:田学东杨捧吴志峰张立平李娜更多>>
- 相关机构:河北大学更多>>
- 发文基金:河北省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论语言文字更多>>
- 印刷文档中数学公式抽取的研究被引量:2
- 2005年
- 数学公式抽取是公式识别的首要步骤,目前相关的研究还很欠缺.针对印刷文档中数学公式的抽取展开了研究,对于印刷文档中的孤立式公式采用Parzen窗方法将其从文档中抽取出来.实验表明,这种方法能够取得较好的效果.
- 田学东杨捧张立平苗秀芬
- 关键词:PARZEN窗
- 基于篇章字体导引的单字符字体识别
- 2005年
- 字体识别是印刷文档识别重构的重要组成部分,是目前识别技术的一个难题。以印刷文档的单体单字高识别率为基础,论文提出了一种基于篇章字体导引的汉字单字符字体识别方法,结合字体排版的规律性,使得字体识别速度和精度大大提高。以常用报纸、杂志正文文本为样本进行实验,字体识别率达到了99%。
- 杨芳田学东
- 关键词:导引字体识别GABOR滤波器
- 基于Parzen窗的印刷文档数学公式抽取的研究被引量:7
- 2005年
- 数学公式抽取是公式识别的首要步骤,目前相关的研究还很欠缺。针对印刷文档中数学公式的抽取展开了研究,提出了一种Parzen窗和启发式规则相结合的公式抽取方法。对于孤立式公式采用Parzen窗方法将其从文档中抽取出来,对于嵌入式公式采用启发式规则将其从文本行中抽取出来。实验表明,这两种抽取方法的结合取得了较好的效果。
- 杨捧田学东
- 关键词:PARZEN窗启发式规则
- WEB主题检索的性能优化设计被引量:1
- 2006年
- Web主题检索是信息检索领域一个将采集技术与过滤方法结合的新兴方向,也是信息处理领域的研究热点。针对现有主题检索系统在Web页面文本的主题相关性判断和Spider搜索策略方面存在的问题,引入两个性能优化方案,即利用信息抽取技术,提出了一种基于模式集的主题相关性判断方法来提高主题判断准确度;针对pagerank在主题检索中存在的不足,引入基于增强学习的页面评估算法,提出了Web环境优先的搜索策略。最后根据实验结果评估两个算法的性能。
- 田学东李树成
- 关键词:信息抽取技术WEB环境
- 人名、机构名在基于概念的文本分类中的应用研究被引量:8
- 2004年
- 基于概念的文本分类方法,能对同义词、多义词进行比较好的处理,是一种比较优秀的文本分类算法.但是此方法往往对人名、机构名等具有分类特征的词不能很好地处理,依然停留在关键词的层次.提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法,并经过实验验证了其有效性.
- 吴志峰田学东
- 关键词:文本分类KNN朴素贝叶斯
- 基于统计特征的数学公式抽取方法的研究被引量:4
- 2006年
- 在分析公式特征的基础上,提出了一种将Parezen窗和Bayes分类规则相结合的公式抽取方法。对于孤立式公式采用改进后的Parzen窗方法将其从文档中抽取出来,对于内嵌公式通过Bayes分类规则将其从文本行中抽取出来。实验表明,这种抽取方法对中文文档具有较好的适应性和较高的成功率。
- 田学东张立平杨捧
- 关键词:OCR技术
- 基于概念的文本分类中的人名、地名处理研究
- 2005年
- 基于概念的文本分类方法是近年来提出的一种新的文本分类方法,弥补了以前基于关键词的文本分类方法的一些不足,对同义词、多义词能进行比较好的处理。但是基于概念的文本分类方法往往对人名、机构名等具有分类特征的词不能很好处理。文中提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法。并经过实验验证了其有效性。
- 吴志峰田学东
- 关键词:文本分类K近邻法
- 印刷体数学公式识别中的结构分析策略
- 2004年
- 数学公式识别是OCR技术的重要组成部分,目前相关的研究还很欠缺。文中在简要介绍数学公式识别发展状况的基础上,针对结构分析这一公式识别的关键环节,提出了一种将"自顶向下"和"自底向上"策略相结合的数学公式结构分析方法。实验表明,这种方法对公式结构具有较好的适应性。
- 李奋华田学东
- 关键词:自顶向下自底向上
- 印刷体数学公式结构分析方法的研究
- 2006年
- 印刷体数学公式识别是OCR技术的重要组成部分,也是识别技术发展的瓶颈所在。在介绍公式识别技术发展现状的基础上,针对结构分析这一公式识别的关键环节,提出了一种基于基准线和字符间空白域特征的公式二维结构分析方法,并将语义和语境分析策略融入其中。实验表明,这种方法对公式结构分析具有较好的鲁棒性和应用前景。
- 田学东李娜徐丽娟
- 基于RL特征的光学公式识别方法被引量:1
- 2007年
- 提出了一种光学公式识别与分析的新方法,在公式符号提取与识别中采用RL(Run_length)特征以提高识别率。采用二层连通区域搜索算法提取公式符号的图像,其中第一层为基于RL特征的符号提取,得到复合符号的整体连通区域;第二层为传统搜索方法,进一步确定这些复合符号中包含的单一符号。设计了专门的公式符号识别器,对公式符号进行识别;根据符号间的语义信息和几何关系得到公式的逻辑结构;最终表达为公式结构树。在对印刷文献中所含公式的识别实验中取得了较好的效果,表明该方法具有良好的应用前景。
- 田学东田大增哈明虎
- 关键词:OCR