收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的自然场景文本检测与识别算法研究

夏勇  
【摘要】:文字,作为人类智慧的结晶,是人类文明最重要的标志之一。从古至今,文字在我们的生活中都发挥着不可或缺的作用。文字包含丰富而精确的语义信息在基于视觉理解的任务中应用广泛,因此自然场景文本检测与识别变得越来越重要,并且成为计算机视觉和文档分析中一个研究热点。近年来,该领域取得了大量的研究成果和巨大研究进展,但是对于自然场景图像中的文字提取与识别,仍然面临诸多挑战,如噪声、模糊和失真等。为此,本文针对现存的问题进行了深入的研究,取得如下创新性成果。针对自然场景文本检测,本文提出基于多通道多尺度检测最大稳定极值区域与由粗到细的级联过滤的文本定位方法。首先,本文选取合适的颜色通道和尺度提取最大稳定极值区域作为字符候选区域。然后,设计一个由粗到细的级联过滤器用于去除误检,粗过滤器基于一些简单的形态学特征和笔画宽度特征,细过滤器由二分类卷积神经网络训练得到。最后,对剩余的字符候选区域,通过图模型合并成水平或者多方向字符串。本文提出的方法在ICDAR2013数据集Challeng2以及多方向自然场景数据集USTB-SV1K上进行了测试,实验结果显示本文方法快速而有效。F-score在ICDAR2013达到了83.84%,在更具挑战的USTB-SV1K数据库上达到了51.15%,性能优于当前流行的自然场景文本检测算法。针对自然场景文本识别,基于深度学习技术的发展,我们将文本识别转化成序列标注任务,提出基于上下文内容的隐分割自然场景文本识别方法。首先,对输入图像进行预处理,使之符合网络结构。然后,利用卷积神经网络提取单词图像的序列特征。之后,利用循环神经网络中的双向长短时记忆网络对序列特征进行处理输出预测结果。最后,利用时域连接模型对预测结果进行转录,得到最终的识别结果。本方法在ICDAR2013的Challenge1、2和4上进行了测试,实验结果表明本方法具有良好的识别效果以及较快的识别速度。基于本文提出的自然场景文本检测算法和自然场景文本识别算法,我们可以得到端对端的自然场景文本检测与识别系统。此外,针对多方向文本,我们通过文本检测提取其方向,然后加以倾斜矫正,可以有效的提升其识别率。由于单词比字符包含更高的语义信息,我们将文本识别算法与文本定位方法的结果结合,用于提升文本定位的准确性。


知网文化
【相似文献】
中国硕士学位论文全文数据库 前10条
1 夏勇;基于深度学习的自然场景文本检测与识别算法研究[D];西安电子科技大学;2017年
2 刘子玉;视频中文本的定位与提取[D];天津大学;2016年
3 陈志鹏;基于词分布的文本表示研究[D];苏州大学;2017年
4 薛文静;研读声乐文本对歌唱学习的重要性[D];华中师范大学;2017年
5 张婉;信息、象征与传说语言景观功能视域下昆明市博物馆文物文本的英译研究[D];云南师范大学;2017年
6 彭杰;基于对话内容的交互型文本会话主题挖掘[D];南昌大学;2017年
7 胡佳男;基于连续维度型的文本情感强度计算方法研究[D];南昌大学;2017年
8 杨冰;科技文本的翻译实践报告[D];大连理工大学;2017年
9 韩茹;文本分析模式指导下的科技论文汉译[D];中国石油大学(北京);2016年
10 赵亮;科技文本英汉翻译践报告[D];西安外国语大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978