收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的文本识别与文档切分的研究和应用

谢泽澄  
【摘要】:文本识别和文档切分在人机交互、教育医疗、翻译搜索和文化保护等相关领域有着广泛的需求,属于模式识别领域的热门研究方向。文本识别主要包括手写文本行识别和自然场景文本行识别。手写文本行识别是一个非常具有挑战的研究课题,它的主要难点在于庞大的字符集、字符粘连问题和文本输入长度的多变性。自然场景文本行识别的主要挑战在于背景复杂且噪声干扰多、文本形状各异且外观多变、字体色彩丰富且排布顺序多样等。而在文档切分方面,研究的主要困难来源于文档排布的多样性、文档字符的粘连问题和文档损坏、老化和污渍影响等。围绕文本识别和文档切分,本文摒弃了特征设计难度大且正确率低的传统方法,主要通过探索深度学习在文字处理领域的应用,研究了基于深度学习的文本识别和文档切分。具体来说,本文的工作内容和创新主要包括以下几方面:(1)针对手写文本行识别提出一个全新的解决方案,该方案包括基于path-signature的笔迹特征提取、多尺度空间建模的全卷积循环神经网络的设计和隐性语言模型的设计。其中,多尺度空间建模的全卷积循环神经网络通过借用一系列大小不同的接收域,可以灵活地捕捉多种尺度的空间背景信息提高识别性能。另外,本文提出的残差循环网络在不引入额外参数和计算量的情况下不仅可以加速收敛进程,而且可以提升最终的优化效果。最后,本文提出的隐性语言模型网络可以根据预测特征序列的全局文本语义信息对每个局部时间点的预测结果进行矫正。传统统计语言模型只能根据前面数个字符来预测下一个字符,而本文提出的隐性语言模型可以利用前向和反向任意长度的语义信息来辅助识别。(2)关于新型无约束手文本行识别问题,本文从一个新颖的角度来解析手写轨迹采样点信息——关注采样点坐标值的变化量而非它们的绝对值,这可以有效地降低不同书写风格的差异性。由于业界缺少多种书写风格的相关数据,本文提出一种新的数据合成方案来生成多种书写风格的无约束手写文本行,包括水平、竖直、倾斜、重叠、旋转和多行情况。为了更好地对新型无约束手写笔迹点进行建模,本文提出多层时域特征发掘的循环神经网络,它不仅继承循环神经网络的序列建模能力,而且可以加速收敛进程,保持甚至提高识别率。(3)关于场景文本识别问题和脱机中文文本行问题,本文提出一种新的集聚交叉熵损失函数,它可以达到和当前主流的序列识别函数(CTC和注意力机制)相当甚至更优的性能。由于其简便性,集聚交叉熵损失函数的部署过程非常快捷方便;而且它前向和后向过程的速度非常快,并行情况下几乎可以达到(1)的计算代价;另外,它只有非常少的内存需求,没有任何参数和运行时内存,并且它还非常容易使用,只需要替换原有的CTC损失函数即可。本文所提出的集聚交叉熵损失函数还可以扩展应用于二维预测问题,只需要直接把二维预测变换为一维预测作为输入即可。最后,本文所提出的集聚交叉熵损失函数不需要字符序列的顺序作为监督信息,只需要提供序列标签中出现的字符及其出现次数即可,这拓展了该损失函数的应用场景,比如日常场景的物体数量计数问题。(4)关于古籍文档切分问题,本文提出一个弱监督高精度的古籍文档切分系统,包括预处理、简单边界框切分算法、增量弱监督学习和识别辅助关键区域边界框切分算法。本文从贝叶斯理论的角度解释了字符切分问题,在给定文本图片的情况下,本文通过最大化标签序列的后验概率,推导得到三种新的搜索最优切分路径的算法。另外,本文还提出了判定门机制,借助这个机制,本文实现字符分类器的增量弱监督学习。借助训练得到的高性能字符分类器,本文提出的字符切分系统的性能可以获得稳定的提升。最后,本文提出的识别辅助关键区域边界框切分算法显著地降低了解码时间,因为算法只在关键区域引入置信度信息和文本行信息来辅助切分算法。


知网文化
【相似文献】
中国期刊全文数据库 前15条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期
4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
5 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
6 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
7 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期
8 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
9 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
10 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期
11 汪岿;刘柏嵩;;文本分类研究综述[J];数据通信;2019年03期
12 王海燕;胡学钢;李培培;;基于向量表示和标签传播的半监督短文本数据流分类算法[J];模式识别与人工智能;2018年07期
13 陈伟;勾东升;徐发亮;;基于文本数据分析的大数据审计方法研究[J];中国注册会计师;2018年11期
14 刘俊华;利用Excel生成的文本数据提高工作效率和质量[J];山西交通科技;2005年01期
15 刘玉林;菅利荣;;基于文本情感分析的电商在线评论数据挖掘[J];统计与信息论坛;2018年12期
中国重要会议论文全文数据库 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎巎;徐翼龙;;文本情感分析研究[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
4 刘伟;陈春林;;基于注意模型深度学习的文本情感倾向性研究[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 谭立;赵茜瑶;李倞;;基于NLPIR平台大数据文本分析的北京市典型建成绿道绩效评价[A];中国风景园林学会2018年会论文集[C];2018年
7 李洋;倪丽萍;李莹;;电子商务平台在线评论对冰箱销量的影响——基于文本情感分析方法[A];第十三届(2018)中国管理学年会论文集[C];2018年
8 向观兵;计效园;周建新;殷亚军;沈旭;;一种用于设备运行数据采集的非关系型文本数据向关系型数据的柔性转化方法[A];2019中国铸造活动周论文集[C];2019年
9 李诗;陈建平;向杰;;基于卷积神经网络的地学文本大数据分类与可视化——以四川拉拉铜矿为例[A];2018年中国地球科学联合学术年会论文集(四十三)——专题93:超深层(油气)重磁电震勘探技术、专题94:深部预测方法[C];2018年
10 李锋刚;张亚南;汪兵;;基于词向量和AP聚类的短文本主题演化分析[A];第十三届(2018)中国管理学年会论文集[C];2018年
中国博士学位论文全文数据库 前10条
1 谢泽澄;基于深度学习的文本识别与文档切分的研究和应用[D];华南理工大学;2019年
2 徐康;基于主题模型的文本情感和话题建模的研究[D];东南大学;2017年
3 宋扬;基于上下文位置的文本匹配若干关键技术研究[D];华东师范大学;2019年
4 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张培行;基于在线评论文本分析的汽车产品选择方法研究[D];合肥工业大学;2019年
2 丁照银;基于机器学习的评论文本分析[D];安徽师范大学;2019年
3 梁宁;基于注意力机制及深度学习的文本情感分析研究[D];华北电力大学;2019年
4 崔敏;基于文本识别技术的电气设备监测数据处理[D];华北电力大学;2019年
5 王鑫;文本相似度在综合计划的专项项目可研评审工作中的应用[D];电子科技大学;2019年
6 杨波;新浪微博热点话题发现研究[D];新疆大学;2019年
7 牛茂龙;基于注意力机制的主题检测与跟踪研究[D];新疆大学;2019年
8 杨帆;基于改进注意力机制的短文本情感分析研究[D];华中科技大学;2019年
9 范文慧;基于机器学习的网络舆情文本情感分类方法研究[D];电子科技大学;2019年
10 唐结玲;基于视频流的文本识别研究与实现[D];电子科技大学;2019年
中国重要报纸全文数据库 前2条
1 张慧伦;伴随文本:透视网络文学发展的重要路径[N];文艺报;2019年
2 通讯员 王成弟 刘欢 本报记者 廖志林;肺部常见疾病AI诊断产品呼之欲出[N];健康报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978