收藏本站
《上海交通大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的自然场景图像的中文字检测和识别算法研究

任逍航  
【摘要】:文字检测和识别对图像和视频的内容理解、信息检索、目标定位等计算机视觉中的研究热点有着重要意义,对极具前瞻性的机器人视觉系统、自动驾驶、虚拟现实等热点应用的研究也大有助益。自然场景图像的文字复杂性高,传统方法难以准确而全面地提取文字的区域和特征。相较于英文字,具有空间二维结构的中文字更难与复杂背景区分开,识别难度也更大。深度学习是当前图像处理领域热门的算法模型基础,与传统的图像处理算法不同,它可以从图像数据中习得专用的深度图像特征,使设计特征更为高效,针对性也更强。本文继承经典的文字检测和识别算法框架的设计思想,结合对文字检测和识别算法的最新认知,利用深度学习模型的优秀特性,辅以中文字独有的结构特征,对基于深度学习模型的自然场景图像的中文字检测和识别算法进行深入研究。我们重点研究了其中三个关键的功能模块和方法:候选文字区域提取,分离文字和背景图像区域,为深度学习模型提供检测和识别的图像区域;中文字特征提取,以中文字结构为核心,在深度学习模型中设计文字结构特征提取方法,提升特征的准确性和全面性;深度学习模型辅助训练模块,在现有自然场景图像的中文字数据不足的情况下,使深度学习模型的训练准确有效。最后,在上述功能模块和方法的基础上对传统上分离的文字检测和识别算法进行了融合尝试。本文的主要研究工作如下:(1)候选文字区域提取。候选文字区域是文字检测和识别算法重点分析的局部区域,提取的精确性对算法的性能有重要影响。传统的图像区域提取算法多为图像物体设计,所提取的文字区域常混入复杂背景,独立性成为了精确性中的短板,降低了文字检测和识别算法的性能,在基于深度学习模型的算法中尤为明显。在经典的最大稳定极值区域(MSER)提取算法中,边缘模糊往往被视为显著的图像局部干扰,影响着候选文字区域提取的独立性。本文以边缘模糊为关注点,对MSER在自然场景文字图像的表现进行统计分析,发现文字和背景区域的边缘模糊有着显著的不同。根据这一发现,我们在MSER提取算法中加入边缘模糊的分析,提取具有显著文字区域边缘模糊特性的图像区域作为候选文字区域。该算法所提取的图像局部区域独立性强,因此得名I-MSER(Isolated-MSER)。我们在算法中设立了调节参数,通过调节对边缘模糊的容忍度,使提取区域可以应用于文字检测和识别算法。实验结果表明,相较于其它候选文字区域提取算法,以I-MSER提取算法为核心的文字检测算法在检测性能上表现更佳。(2)中文字特征提取。在自然场景图像的中文字检测和识别算法中,中文字特征的独特性和区分度分别是检测和识别算法的关注焦点。由于中文字有着上下、左右、包围等复杂多样的文字结构,常用的深度图像特征提取结构在提取中文字特征时,在独特性和区分度上都会有所欠缺。本文从中文字发展演化和人类认知中文字两个角度出发,发现中文字结构部件是中文字构造和认知时的关键部分。通过对中文字结构部件的统计分析,我们发现中文字结构部件在结构区域的比例上有很高的集聚性,可以分为八种结构类型。据此,我们参照深度图像特征的内在机制,为诸类中文字结构部件单独设计了检测窗口,对本类部件敏感性强,而对其他部件敏感性弱,使之成为结构部件的专用的特征提取结构。在深度学习模型中,这些提取结构平行放置,成为中文字结构特征的专用的提取层,名为中文字结构部件检测(TSCD)层。在TSCD层中,这些特征提取结构被平行放置以保证提取过程互不干扰,使其可以从上层的文字笔画特征中,提取准确且全面的中文字结构特征,且具有高独特性和强区分度。实验结果表明,TSCD层所提取的中文字结构特征,相较于基本的深度图像特征,在自然场景图像的中文字检测算法和识别算法中都有更为优异的性能。同时它在连合中文字检测算法和识别算法时,消除了特征相异带来的性能损失,相较于基本的深度图像特征性能更佳。(3)深度学习模型辅助训练模块。现有自然场景图像中文字数据集在尺寸和标注上十分有限,在此基础上使用常规方法训练的深度学习模型对文字图像很敏感,弱化了文字检测和识别算法的性能。由于大数据集构造成本高,使用高效的训练方法,是提高基于深度学习模型的中文字检测和识别算法性能的的一大重点。本文从无监督学习和扩充训练图像两个角度出发,探索适合中文字检测和识别的深度学习模型辅助训练模块。针对中文字的高度抽象性,我们将卷积层模型和稀疏编码算法相结合,为无逆运算的卷积层设计了无监督训练方法,名为卷积稀疏自编码器(CSAE)。它可以使卷积层从最简单的人工中文字图像中习得有效的预训练参数。我们将中文字在自然场景图像的表现形成过程分成三个不同阶段,并为之分别设计了模拟方法,从而构建人工中文字生成器。它生成的人工中文字图像与自然场景中文字图像高度相似,可以对深度学习模型进行有效的预训练。实验结果表明,CSAE和人工中文字生成器对中文字检测和识别深度学习模型的训练过程各有助益且优势互补,显著提升了中文字检测和识别算法的性能。(4)中文字检测和识别算法的融合尝试。传统上,文字检测和文字识别是两个分离的算法。由于它们的算法目的和特征选择存在诸多差异,连合两者构造完整的文字检测和识别算法时,会产生很多不适应,大幅影响完整算法的性能。近来,融合的文字检测和识别算法因其功能组件上的融合设计,消弭了连合时的不适应,提高了完整算法的性能,得到越来越广泛的重视。我们通过对文字检测与识别独立模型的结构组成进行功能分析,发现候选文字区域提取和中文字特征提取是融合算法中重要的融合点。基于这一发现,我们基于I-MSER提取算法和TSCD层中文字特征提取结构设计了中文字检测和识别融合算法,并对融合的关键点进行设计:候选文字区域生成算法,修正I-MSER提取的候选文字区域,使其仅包含单个中文字;融合的中文字检测和识别的深度学习模型,将TSCD层提取的中文字结构特征,同时输入检测和识别分类器,最后基于中文字图像先验知识对分类结果进行融合。实验结果表明,相较于传统的连合结构,中文字检测和识别算法的融合结构取得了更佳的文字检测与识别结果,表明了融合结构所具有的巨大潜力。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.41;TP181

手机知网App
【参考文献】
中国期刊全文数据库 前7条
1 王晖;;形义之桥与原始思维——史前图画及“文字画”研究[J];学术研究;2014年10期
2 周晓文;李勇;;汉字效用函数研究[J];语文研究;2009年01期
3 丁晓青;汉字识别研究的回顾[J];电子学报;2002年09期
4 沈模卫,李忠平,朱祖祥;部件启动对合体汉字字形识别的影响[J];心理科学;1997年03期
5 张武田,冯玲;关于汉字识别加工单位的研究[J];心理学报;1992年04期
6 傅永和;汉字的部件[J];语文建设;1991年12期
7 张普;;汉字部件分析的方法和理论[J];语文研究;1984年01期
【共引文献】
中国期刊全文数据库 前10条
1 陈浩;;OCR技术在干部工作信息化中的应用[J];信息通信;2015年09期
2 陈穗清;张积家;李艳霞;张惠霞;;手语词识别的影响因素探讨——手语词的两个网络系统及其交互作用[J];心理学报;2015年07期
3 王骏;;外国人汉字习得数据库的建设与汉字习得分析[J];语言教学与研究;2015年03期
4 黎阳;;基于变粒度原理的脱机手写体汉字识别决策信息系统的研究[J];电子技术与软件工程;2015年07期
5 武悦;王爱平;;汉字部件水平的重复知盲效应[J];心理科学;2015年02期
6 陈艺骞;;从汉字的功能单位看汉字构字法[J];海外华文教育;2015年01期
7 潘炜深;金连文;冯子勇;;基于多尺度梯度及深度神经网络的汉字识别[J];北京航空航天大学学报;2015年04期
8 王恺;李成学;王庆人;赵宏;张健;;异态汉字识别方法研究[J];软件学报;2014年10期
9 吴慧;;辩证统一:汉字构形及其文化意蕴[J];殷都学刊;2014年03期
10 李宁;梁宁建;;多层次格式塔双向加工模型:汉字输入中形码的认知加工机制[J];心理与行为研究;2014年04期
【二级参考文献】
中国期刊全文数据库 前10条
1 周晓文;王晓明;;数理统计方法在汉字规范中的应用[J];语言文字应用;2008年02期
2 陈明,丁晓青,梁健;复杂中文报纸的版面分析、理解和重构[J];清华大学学报(自然科学版);2001年01期
3 李元祥,丁晓青,刘长松;基于HMM的汉语文本识别后处理研究[J];中文信息学报;1999年04期
4 周晓陆;生命的颂歌──关于释读龙虬庄陶文的一封信[J];东南文化;1998年01期
5 饶宗颐;谈高邮龙虬庄陶片的刻划图文[J];东南文化;1996年04期
6 刘连元;现代汉语语料库研制[J];语言文字应用;1996年03期
7 沈模卫,朱祖祥;整体汉字字形识别过程探索[J];应用心理学;1995年02期
8 彭聃龄,李燕平,刘志忠;重复启动条件下中文双字词的识别[J];心理学报;1994年04期
9 丁晓青,吴佑寿;模式识别统一熵理论[J];电子学报;1993年08期
10 马红骊,方芸秋;启动效应的研究及其理论[J];心理科学;1992年05期
【相似文献】
中国期刊全文数据库 前10条
1 张学军;郭建;;图像纹理分析的方法与应用[J];黑龙江科技信息;2009年16期
2 吴涛;秦昆;;图像纹理特征数据挖掘的理论与方法探讨[J];计算机时代;2006年08期
3 王震,王执铨;图像纹理分析与纹理测度[J];南京理工大学学报(自然科学版);2002年S1期
4 范郭亮;李光;王春霞;;图像纹理区检测及分割算法研究[J];信息安全与技术;2011年09期
5 李亚春;夏德深;徐萌;;小波变换在图像纹理分析中的研究进展[J];计算机工程与应用;2005年35期
6 孟勇,洪丹辉,毛丹;测度熵在图像纹理分析中的应用[J];计算机应用与软件;2000年08期
7 丁黎明;;纹理损失最小约束下跟踪图像阴影自动去除算法[J];自动化与仪器仪表;2019年03期
8 章华;李振璧;姜媛媛;;基于图像纹理的煤岩识别研究[J];煤炭技术;2015年07期
9 徐孟春;王相海;;基于不完全小波树型结构的图像纹理特征研究[J];中国图象图形学报;2009年07期
10 张地;罗群;雷敏;;一种基于图像纹理特征和支持向量机的版权保护方法[J];网络安全技术与应用;2017年08期
中国重要会议论文全文数据库 前10条
1 杨国华;周晨波;阮久忠;郭冰;王刚;;基于自相关函数的非平面表面粗糙度的图像纹理研究[A];第十二届全国光学测试学术讨论会论文(摘要集)[C];2008年
2 王云;董增寿;卓东风;;基于图像纹理和结构特征的燃烧指数的高温低氧火焰燃烧稳定性识别[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 张磊;朱磊;;一种综合图像纹理和灰度特征的分割算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
4 袁灼彬;郑晓林;邹玉坚;方少伟;张旭升;杨沛钦;;T2WI图像纹理分析联合多参数磁共振成像在评价前列腺癌侵袭性研究[A];中国中西医结合学会医学影像专业委员会第十五次全国学术大会暨上海市中西医结合学会医学影像专业委员会2017年学术年会暨《医学影像新技术的临床应用》国家级继续教育学习班资料汇编[C];2017年
5 王鹏;吴春亚;刘德利;刘亦智;刘献礼;;基于LabVIEW的钢球表面缺陷图像纹理分析与检测[A];2007'中国仪器仪表与测控技术交流大会论文集(一)[C];2007年
6 阮久忠;周晨波;杨国华;;基于灰度共生矩阵的非平面表面粗糙度的图像纹理研究[A];第十二届全国光学测试学术讨论会论文(摘要集)[C];2008年
7 薛晶晶;白廷柱;;基于图像纹理特征的隐身效果评价方法研究[A];光电技术与系统文选——中国光学学会光电技术专业委员会成立二十周年暨第十一届全国光电技术与系统学术会议论文集[C];2005年
8 阳维;张素;陈亚珠;;射频消融组织的B超纹理分析与定征[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
9 杨伟斌;朱庆勇;余怀忠;;基于SEM图像纹理增强的岩石多孔介质渗透率计算[A];中国力学大会-2017暨庆祝中国力学学会成立60周年大会论文集(B)[C];2017年
10 刘芷兰;高康;田野;戴思兰;宋雪彬;;基于展开图像LBP纹理的菊花品种识别[A];中国观赏园艺研究进展2017[C];2017年
中国重要报纸全文数据库 前2条
1 华凌;世界最薄泡沫屏幕可改变图像纹理[N];科技日报;2012年
2 记者 冯卫东;非侵入性成像可准确发现癌症转移[N];科技日报;2019年
中国博士学位论文全文数据库 前10条
1 任逍航;基于深度学习的自然场景图像的中文字检测和识别算法研究[D];上海交通大学;2017年
2 任燕;基于弱监督学习的图像协同分割与定位[D];西安电子科技大学;2018年
3 周杰;医学图像特征的自动获取与基于内容检索的方法研究[D];第一军医大学;2004年
4 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
5 胡广寰;基于内容图像检索中图像语义分类技术研究[D];浙江大学;2005年
6 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
7 段立娟;基于内容的图像检索与过滤关键技术研究[D];中国科学院研究生院(计算技术研究所);2002年
8 唐俊华;科学数据库中基于内容图像检索技术研究[D];中国科学院研究生院(计算技术研究所);2004年
9 易文晟;图像语义检索和分类技术研究[D];浙江大学;2007年
10 温智婕;图像纹理特征表示方法研究与应用[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 王延杰;基于深度人脸信息的身份识别[D];北方工业大学;2019年
2 黎家超;复杂环境下的道路交通标志检测方法研究[D];长安大学;2018年
3 吕朝晖;基于超像素的腹部图像多器官分割算法研究[D];西北大学;2018年
4 吕凡;基于生成对抗网络的图像自动文本标注方法研究[D];苏州科技大学;2018年
5 楼苏迪;基于情感语义的旗袍图像注释研究[D];杭州电子科技大学;2018年
6 汤丽萍;面向视觉感知的图像情感分类研究[D];南京理工大学;2018年
7 姜雪;基于Hadoop的图像类教学资源的检索策略研究[D];东北师范大学;2018年
8 宋振旗;基于K-T算法的太阳图像高分辨率重建并行化研究[D];昆明理工大学;2018年
9 鞠成恩;基于图像底层特征的图像聚类与检索研究[D];昆明理工大学;2018年
10 赵昕;基于BP神经网络的图像检索算法研究[D];西安科技大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026