收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

深度学习方法手写气象档案资料的定位及识别技术研究

贾坤昊  
【摘要】:气象档案为气象监测与科学研究等各个领域提供着重要的数据支持,具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案,为了更妥善的保存与保护,利用科技手段数字化储存十分有必要。档案数字化的常规方法是人工比对数据并录入,最终以电子档案的形式进行保存。人工整理流程繁杂,录入精度较低且耗时太长,通常需要投入大批量的人力物力,效率也得不到保障。近些年来,人工智能技术取得长足进步,为工业生产带来了诸多便利,以人工智能代替人工是时代的潮流。本文的工作就是采用深度学习的方法定位档案文本区域,对要录入的内容进行自动识别,减少人工工作量,提升工作效率。气象档案数据数字化主要分为两个任务:文本定位与字符识别。在文本定位任务中,相对于传统文本定位方法,深度学习方法精度更高。不同于常规的目标检测任务,文本目标的长度并不固定,因此定位网络选用对序列信息敏感的连接文本建议网络(CTPN,Connectionist Text Proposal Network)。文本目标在扫描图像中排列密集且目标较小,CTPN模型对于微小目标定位的能力较弱,同时加大了模型的训练难度,最终影响之后字符的识别效果。针对微小目标难以定位的问题,本文提出从局部到整体的策略,按照档案数据特点对扫描图像自动划分区域,在子区域中进行定位。我们将气象档案的扫描数据做了图像去噪,二值化等预处理步骤,并使用霍夫变换方法对图像进行了倾斜校正,最后提取表格的局部区域。分别对扫描图像做整体训练和局部训练,相同的训练轮次,局部训练的模型收敛的更快,定位准确。而整体训练的模型出现大量误提漏提情况,无法实际应用。字符识别任务中也存在诸多难题,例如,不同记录员的字迹多有不同,相同字符也会因记录员字迹不同而存在较大差异,且手写字符间会有粘连,无法进行字符分割单独识别每一个字符。为提高网络的泛化能力,本文准备了大量的训练数据,保证数据的多样性,确保可以识别不同字迹的文本。而对于传统方法无法识别粘连字符的问题,本文选择了结合卷积神经网络(CNN,Convolutional Neural Network)与长短时记忆网络(LSTM,Long Short-Term Memory)的卷积循环网络(CRNN,Convolutional Recurrent Neural Network)。CRNN可对连续文本进行识别。手写档案中还存在涂改的字符,对于涂改划掉的字符,CRNN会将其判定为与其结构最为相似的错误字符,这成为识别任务的一大难题。对此,本文根据无涂改数据与涂改数据之间的差异,构建了两个特征不同的数据集,分别训练模型,学习涂改字符的特征。在确保无涂改文本被正确识别的前提下甄别出涂改文本。最后在测试集中进行测试,将两个模型识别结果不同的图片剔除,用于后期人工筛查,剩余图片与标签比对确定精度。识别精度达到99.7%以上,并与腾讯识图算法的识别结果进行了对比:本文算法在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符。本文的工作能够显著减少工作量提高工作效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 兰平;;不断创新的数字气象档案共享服务[J];数字与缩微影像;2019年04期
2 陈静超;;大数据背景下气象档案管理的发展趋势[J];现代农业;2019年12期
3 兰平;;气象档案分级鉴定关键技术与策略分析[J];兰台世界;2020年02期
4 兰平;;我国民国时期的气象档案[J];山东档案;2020年01期
5 刘霄;陈中钰;;四川省珍贵气象档案资料保护与开发利用[J];兰台内外;2020年30期
6 杨雁;;浅谈大数据环境下气象档案管理问题[J];农民致富之友;2018年24期
7 兰平;;我国近代气象档案的由来[J];档案天地;2019年04期
8 梁贞;贺琳为;;探析大数据背景下气象档案管理问题[J];农家参谋;2019年15期
9 关晓军;王宝忠;祁英华;;大数据时代气象档案管理工作探讨[J];青海科技;2019年04期
10 左希健;;浅谈大数据环境下气象档案管理问题[J];办公室业务;2018年04期
11 张晓北;;浅谈气象档案科学应用价值[J];现代农业;2018年10期
12 周威;范昱;;长沙气象档案管理系统一体化设计与实现[J];低碳世界;2016年32期
13 陈华文;谢建云;;气象档案知识服务研究[J];办公室业务;2017年04期
14 范晶晶;;大数据时代下的气象档案信息化建设探讨[J];南方论刊;2017年05期
15 李星玉;;气象档案工作中标准化管理的应用研究[J];办公室业务;2016年06期
16 高尚田;;浅谈气象档案的价值与开发利用[J];农业与技术;2014年12期
17 汤宁;;浅析灾害性气象档案[J];兰台世界;2015年S4期
18 梁贞;贺琳为;;做好阿拉善盟气象档案管理与保护工作的若干思考[J];今日财富;2019年12期
19 宋建萍;;气象档案资料的社会利用与服务初探[J];环球市场信息导报;2017年30期
20 欧阳彩虹;马丽云;陈昱宇;朱臻;;基层台站气象档案管理的经验[J];广东气象;2013年01期
中国重要会议论文全文数据库 前20条
1 尚惠玲;唐炳莉;丘平珠;;浅谈气象档案的保管与鉴定[A];2007年广西气象学会学术年会论文集[C];2007年
2 林荔;;福建省气象档案资料管理系统[A];第33届中国气象学会年会 S20 气象信息化——业务实践与技术应用[C];2016年
3 张玲;王琼;江善赐;;福建气象档案工作改革与创新[A];档案事业改革与创新——2013年全国青年档案工作者研讨会论文集[C];2013年
4 郑敏;朱添福;段卿;;浅谈数字气象档案查阅系统[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
5 李秀金;;坚持制度管理 做好气象档案收集工作[A];2008年广西气象学会学术年会论文集[C];2008年
6 陆璐;张旭东;赵莹;高隽;;基于卷积神经网络的车牌照字符识别研究[A];第十二届全国图象图形学学术会议论文集[C];2005年
7 刘云曼;王磊;;盲人阅读机中图像字符识别方法的研究[A];天津市生物医学工程学会第三十三届学术年会论文集[C];2013年
8 韩健鸿;毕福昆;田雨萌;边明明;;基于深度可分离卷积轻量级网络的书法字识别[A];第十四届全国信号和智能信息处理与应用学术会议论文集[C];2021年
9 边岩;王顺;尹子豪;白璐;左良玉;;基于机器视觉的复杂条件下钢坯字符识别系统[A];2020中国自动化大会(CAC2020)论文集[C];2020年
10 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
11 徐梦洋;;基于深度学习的行人再识别研究综述[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
12 吴冯维;宋亮;王海宁;;字符识别技术在河湖工程划界资料处理中的应用[A];江苏省测绘地理信息学会2018年学术年会论文集[C];2018年
13 沈庆华;李树涛;李怡;;基于小波变换和形态学的复杂背景文本定位[A];第二十六届中国控制会议论文集[C];2007年
14 陈伟辉;孙阳;陈杰;倪玮;陈冲;薛超;;基于深度学习的地震识别技术展望[A];国家安全地球物理丛书(十四)——资源·环境与地球物理[C];2018年
15 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
16 朱小燕;史一凡;马少平;;脱机手写体字符识别研究[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
17 张雪山;田慧;;字符识别系统的一种定位算法[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年
18 刘仁进;;地面气象资料信息服务系统的主要功能与技术实现[A];2007年湖北省气象学会学术年会暨全省青年气象科技工作者学术交流会议学术论文详细文摘汇集[C];2007年
19 朱军民;黄磊;刘昌平;;一种分级的电路板图像中的文本定位方法[A];第八届全国汉字识别学术会议论文集[C];2002年
20 彭瑾;刘必慰;陈胜刚;刘畅;;神经网络压缩模型的解压算法设计及其硬件实现[A];第二十二届计算机工程与工艺年会暨第八届微处理器技术论坛论文集[C];2018年
中国博士学位论文全文数据库 前20条
1 朱安娜;基于卷积神经网络的场景文本定位及多方向字符识别研究[D];华中科技大学;2016年
2 户保田;基于深度神经网络的文本表示及其应用[D];哈尔滨工业大学;2016年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 高震宇;基于深度卷积神经网络的图像分类方法研究及应用[D];中国科学技术大学;2018年
5 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 梁聪;面向图像分类的卷积神经网络损失函数研究[D];山东大学;2020年
8 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
9 毛博;基于卷积神经网络的地震数据重构与模型构建研究[D];吉林大学;2020年
10 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
11 于政;基于深度学习的文本向量化研究与应用[D];华东师范大学;2016年
12 马超;基于深度神经网络的三维目标检测与识别技术研究[D];国防科技大学;2019年
13 章东平;视频文本的提取[D];浙江大学;2006年
14 金国强;基于深度学习的复杂工况下端到端的滚动轴承故障诊断算法研究[D];中国科学技术大学;2020年
15 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
16 彭健;多类小字符集自适应字符识别技术及系统的研究[D];重庆大学;2002年
17 艾鹏程;基于卷积神经网络的高能物理事例特征信息在线提取算法研究[D];华中师范大学;2020年
18 张胜;基于深度学习的场景图像文本检测的研究与应用[D];华南理工大学;2020年
19 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
20 王露笛;心律失常与心力衰竭智能诊断方法研究[D];北京邮电大学;2019年
中国硕士学位论文全文数据库 前20条
1 贾坤昊;深度学习方法手写气象档案资料的定位及识别技术研究[D];山东科技大学;2020年
2 王光军;基于神经网络的自然场景中的字符识别算法的研究与实现[D];电子科技大学;2020年
3 张超群;基于深度学习的字符识别[D];电子科技大学;2016年
4 何云超;聚类算法和卷积神经网络在文本情感分析中的应用研究[D];云南大学;2016年
5 阿茹娜;基于改进卷积神经网络的文本分类研究[D];内蒙古民族大学;2020年
6 蒋建辉;基于改进卷积神经网络的文本检测技术研究[D];南宁师范大学;2020年
7 马然;基于深度学习的自然场景文本识别系统的设计与实现[D];吉林大学;2015年
8 王雪娇;基于深度学习的文本情感分析[D];吉林大学;2016年
9 谢稳文;基于深度学习的文本情感分类算法研究与实现[D];华南理工大学;2017年
10 曹宇慧;基于深度学习的文本情感分析研究[D];哈尔滨工业大学;2016年
11 李涛;基于卷积神经网络的自然场景文本识别系统[D];哈尔滨工业大学;2016年
12 顾胜兰;自然场景下的文本定位与提取[D];上海交通大学;2009年
13 Teragawa Shoryu;基于多神经网络融合的文本情感分类研究[D];大连理工大学;2020年
14 张敬仁;基于深度神经网络的短文本情感分类研究[D];山东师范大学;2020年
15 赵建视;基于深度学习的文本情感分析技术研究[D];青岛理工大学;2019年
16 鲍怡;基于深度神经网络的文本情感分析[D];华南理工大学;2017年
17 刘榆;基于深度学习的手写体字符识别研究[D];西北师范大学;2020年
18 王锭;基于深度神经网络的网络短文本情感分类研究[D];长江大学;2020年
19 张世扬;基于深度学习技术的文本情感分类算法研究[D];吉林大学;2020年
20 黄子良;基于深度学习的图像识别系统算法研究[D];成都信息工程大学;2019年
中国重要报纸全文数据库 前20条
1 记者 谷星月 通讯员 张郁 单薇薇 兰平;首批珍贵气象档案分级鉴定出炉[N];中国气象报;2020年
2 记者 谷星月 通讯员 范增禄;全国数字气象档案业务系统基本建成[N];中国气象报;2020年
3 记者 刘钊;收集保护利用珍贵气象档案[N];中国气象报;2019年
4 唐炳莉;充分利用气象档案指导汶川灾后重建[N];中国档案报;2008年
5 陈清郁 严桃林;江西气象档案实行两级管理[N];中国气象报;2003年
6 记者 颜家蔚 通讯员 颜如德 伍圣棋;福鼎市气象档案管理上水平[N];中国气象报;2000年
7 通讯员 庄唯一;遂宁发现民国时期气象档案[N];中国气象报;2011年
8 胡晓梅;气象档案工作进行专题考察[N];中国气象报;2003年
9 王妍;不忘初心 牢记使命[N];中国气象报;2018年
10 本报记者 宁宇龙;哥本哈根关注气象档案吗?[N];中国档案报;2009年
11 孙艳坤;本溪市气象局被评为全国气象档案工作先进单位[N];中国档案报;2000年
12 陈明 特约记者 罗海山;海南省气象局抓好强降雨过程气象档案安全工作[N];中国档案报;2010年
13 通讯员 杨帆 唐炳莉;广西首个气象档案地方标准发布[N];中国气象报;2013年
14 陈永弘;查民情 报冷暖 解难题[N];中国档案报;2015年
15 肖云;协作组会也精彩[N];中国档案报;2004年
16 记者 谷星月 刘钊;数字气象档案馆建设取得重要进展[N];中国气象报;2021年
17 本报记者 赵晓妮;寻回失落的印记[N];中国气象报;2021年
18 本报记者 张妍 通讯员 郭玲;二十九年无缺报的背后[N];中国气象报;2013年
19 本报记者 刘成成;抓管理重监控 铸信息化利剑[N];中国气象报;2012年
20 记者 戴随刚 通讯员 李月霞;三江源生态监测气象档案处理完成[N];中国气象报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978