刘成林 作品数:39 被引量:64 H指数:5 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 中国科学院战略性先导科技专项 北京市自然科学基金 更多>> 相关领域: 自动化与计算机技术 自然科学总论 理学 历史地理 更多>>
《中国图象图形学报》文档图像智能处理与识别专栏简介 2023年 文字和文档图像在工作及日常生活中无处不在,文字承载的丰富而精确的语义信息,在人工智能应用场景中非常重要,如文档数字化、手写输入、图像检索、智能检测、工业自动化、机器人导航、信息安全、智能阅卷、教育信息化、电子政务、广告图片编辑、增强现实翻译等。因此,文档图像分析与识别,或称光学字符识别(OCR),是极其重要的人工智能技术之一,符合国家四个面向重大需求。 刘成林 金连文 殷绪成 白翔 连宙辉 彭良瑞 刘禹良 陈秀妍关键词:文档图像 人工智能应用 机器人导航 工业自动化 智能检测 文档智能分析与识别前沿:回顾与展望 被引量:4 2023年 文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放� 刘成林 金连文 金连文 李晓辉 殷飞关键词:版面分析 文本检测 文本识别 类别增量学习研究进展和性能评价 被引量:6 2023年 机器学习技术成功地应用于计算机视觉、自然语言处理和语音识别等众多领域.然而,现有的大多数机器学习模型在部署后类别和参数是固定的,只能泛化到训练集中出现的类别,无法增量式地学习新类别.在实际应用中,新的类别或任务会源源不断地出现,这要求模型能够像人类一样在较好地保持已有类别知识的基础上持续地学习新类别知识.近年来新兴的类别增量学习研究方向,旨在使得模型能够在开放、动态的环境中持续学习新类别的同时保持对旧类别的判别能力(防止“灾难性遗忘”).本文对类别增量学习(Class-incremental learning,CIL)方法进行了详细综述.根据克服遗忘的技术思路,将现有方法分为基于参数正则化、基于知识蒸馏、基于数据回放、基于特征回放和基于网络结构的五类方法,对每类方法的优缺点进行了总结.此外,本文在常用数据集上对代表性方法进行了实验评估,并通过实验结果对现有算法的性能进行了比较分析.最后,对类别增量学习的研究趋势进行展望. 朱飞 张煦尧 刘成林基于多尺度注意力机制的场景文本擦除 2022年 自然场景文本擦除技术可应用在图像通信中的隐私保护、图像编辑等领域,然而现阶段的场景文本擦除在面对背景复杂、文本尺度变化较大的场景图像时,难以提取鲁棒的文本特征,出现文本检测不全、背景修复不完整等问题.针对上述问题,文中提出基于多尺度注意力机制的场景文本擦除框架.该框架主要由背景修复网络和文本检测网络共同组成,它们共享一个主干网络.在背景修复网络中,设计纹理自适应模块,从原始特征的通道和空间两个维度进行特征编码,自适应地集成局部特征与全局特征,有效修复因重构文本区域而导致的阴影部分.在文本检测网络中,设计上下文感知模块,学习图像中文本区域和非文本区域之间的判别关系,有效区分文本区域和非文本区域,提升文本检测的效果.此外,为了增强网络的感受野,改进不同尺度文本的擦除效果,提出多尺度特征损失函数,同时优化背景修复网络和文本检测网络.SCUT-SYN、SCUT-EnsText数据集上的实验表明,文中框架可取得较优的文本擦除性能. 何平 张恒 刘成林关键词:文本分割 多尺度特征 一种联机手写句子实时识别方法 本发明是一种联机手写句子实时识别方法,该方法是:输入开始模块启动笔划输入;笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;实时识别模块对提笔后得到的笔划轨迹进行实时识别;提笔时间判断模块计算提笔时间是否够长;启动字符串识... 刘成林 王大寒试卷内容自动分类的版面分析方法、系统 本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文... 刘成林 李晓辉 殷飞文献传递 基于全卷积神经网络的中文字符图像笔划提取方法、系统 本发明属于计算机视觉及模式识别领域,具体涉及了一种基于全卷积神经网络的中文字符图像笔划提取方法、系统,旨在解决自由书写的手写字符笔划提取困难的问题。本发明方法包括:对获取的中文字符图像进行区域提取;对交叠区域、非交叠区域... 刘成林 王铁强文献传递 用于目标图像分割的全局阈值分割方法 本发明公开了一种用于目标图像分割的全局阈值分割方法,包括:在总阈值区间内连续改变阈值,得到与阈值对应的目标窗口集合上的0阶类点数的最大值所对应的阈值,得到以该阈值为端点的一个优化阈值区间,其中0阶类点表示环绕指标等于0的... 陈雪云 刘成林 向世明 潘春洪文献传递 一种空中手写字符串识别方法 本发明公开了一种空中手写字符串识别系统和方法。该系统包括:手势识别模块,与手指轨迹提取模块连接,用于识别标识开始书写和结束书写的手势;手指轨迹提取模块,与预处理模块连接,用于对输入的手写动作进行手指轨迹的提取和记录;预处... 刘成林 靳潇杰 王秋锋 侯新文文献传递 一种视频字幕文本提取和识别的方法 本发明公开了一种视频字幕文本提取和识别的方法,其步骤包括:输入视频中字幕区域的图像;将输入图像转化为灰度图;判断字幕区域中字符排列的方向;将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;对字幕区域进行分行得到单行字... 刘成林 白博 殷飞文献传递