收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Tesseract_OCR文字识别系统的研究

张婷婷  
【摘要】:随着科学技术的发展,文字识别成为了日常生活中使用最为频繁的技术,特别是在图书馆、报社等地方。为节省成本,大量的图书、报纸和杂志等文本文档要以电子文档的形式进行存储。借助于不断更新换代的电子设备产品和技术,在对图书馆中的图书、期刊,报社的报纸、杂志或以图片形式保存的文字等进行OCR(Optical Character Recognition,光学字符识别)成为了实现智能输入的重要环节,不仅提高了行事效率又节省了成本开支。利用OCR技术进行文字信息识别时,只需要将文字载体制作成图片形式进行保存,进而输入到文字识别系统里即可。随着信息时代的发展,各国语言字体精确、快速地被成功识别成为了计算机科学领域的重要课题之一。因为要用到OCR技术对文字进行识别操作,所以原始文字图片的获取是文字可以被精确识别的一个重要因素。最为理想的图像采集设备是扫描仪,它不仅能保证图像没有任何背景并且还可以确保图像正面成像。但是扫描仪却不是生活中常具备的,多数情况下是使用手机摄像头进行文字图像的拍摄,虽然方便,但是这样拍摄出来的图像质量比较低,会出现一些不可预测的问题,比如不均匀的光线造成的失真,相机对焦不准确造成的图像模糊等。为了解决这些问题,论文首先对图像做了一系列的预处理工作,如图像二值化、锐化增强处理、去噪、矫正等。图像预处理过程是确保文字被正确识别的一个重要因素,同时也是训练自定义字符库时,常见文字被覆盖全面的重要保证。然后是Tesseract引擎源码的研究和使用,通过对源码的研究,更深层次研究文字识别的原理和流程。针对如何训练自定义字符库及训练过程的优化进行研究,并结合自定义的训练库实现文字识别系统。最后基于对图像处理的研究、C++11的应用以及tesseract引擎的研究对文字识别的整个过程进行封装,并使用MFC应用程序框架在VS2015环境下开发一款可视化界面工具,实现文字识别操作的整个流程。同时,对这个可视化工具进行了严格的黑盒、性能等测试工作,验证工具的健壮性和稳定性。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 钱卫华;图、文、表的快速输入——OCR文字识别技术(二)[J];铁道机车车辆工人;2000年02期
2 耿宇航;;扫描仪使用OCR技巧[J];中国现代教育装备;2008年10期
3 王学梅;;OCR文字识别系统的应用[J];现代信息科技;2019年18期
4 商明慧;;汉王OCR文字识别软件使用技巧[J];广东印刷;2018年01期
5 张灿彬;;煤炭行业办公中光学文字识别的研究[J];煤炭技术;2010年04期
6 钱卫华;图、文、表的快速输入——OCR文字识别技术(一)[J];铁道机车车辆工人;2000年01期
7 邢立民;陈永琴;;扫描仪的OCR技术[J];实验室科学;2006年06期
8 蒋弘毅;朱丽平;欧樟鹏;;基于MSER和Tesseract的自然场景图像文字识别[J];电脑知识与技术;2017年33期
9 王桂敏;齐凤河;;OCR软件使用经验浅谈[J];科技信息;2006年05期
10 张小贝;;OCR建全信息数字化[J];每周电脑报;2002年22期
11 付飞飞;;场景文字识别算法的研究[J];福建电脑;2020年04期
12 刘琪;李鑫;;关于Android平台的OCR文字识别[J];数字技术与应用;2017年07期
13 章安;马明栋;;基于Tesseract文字识别的预处理研究[J];计算机技术与发展;2021年01期
14 浦世亮;程战战;;基于注意力矫正的自然场景文字识别[J];中国公共安全;2017年09期
15 ;新华智云推出25款媒体机器人,解决媒体人痛点[J];传媒;2019年17期
16 张华萍;黄辰;;文字识别技术研究[J];物联网技术;2018年08期
17 Jay;文字识别网上行[J];电脑应用文萃;2005年02期
18 盛寁;刘伟;;计算机文字识别的发展及应用[J];科技信息;2008年31期
中国重要会议论文全文数据库 前14条
1 王景中;霍超;;基于OCR技术的盲用阅读器设计[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 ;中文信息处理发展报告(2016) 第十七章 文字识别研究进展、现状及趋势[A];中文信息处理发展报告(2016)[C];2016年
3 胡瓯静;;标准数字化的初探[A];标准化助力供给侧结构性改革与创新——第十三届中国标准化论坛论文集[C];2016年
4 孙俊;黄开竹;于浩;岩见田均;;面向中国市场的文字识别技术研发[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 张岩;;中华民族文字识别统一平台(TH-OCR~)系列研究成果及应用[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 玉素甫.艾白都拉;潘伟民;热孜万;;笔式维吾尔文识别的中的文字切分研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 靳简明;;汉英双语OCR系统集成原则及实现[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
8 费文东;孟相如;;基于细胞神经网络文字识别的特征提取技术[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 吴彩荣;龙波;雷江东;罗艳;;浅谈窗口行业业务资料数据库建设及查询应用的实现[A];广西计算机学会2014年学术年会论文集[C];2014年
10 范杰清;孙凤杰;李宝儒;;OCR技术在高压断路器开关图像识别中的应用[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
11 梁骁;杨丽芳;黄健;;一种中越OCR识别翻译引擎的设计与实现[A];广西计算机学会2013年学术年会论文集[C];2013年
12 王明华;乔炬;;基于嵌入式平台的OCR技术在ITS应用中的优势[A];第二届全国公路科技创新高层论坛论文集(下卷)[C];2004年
13 易剑;彭宇新;肖建国;;一种图片文字分割的方法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
14 付林;张辉;;应用OCR方法改善人工视觉阅读速度的前期实验研究[A];中国生物医学工程学会第六次会员代表大会暨学术会议论文摘要汇编[C];2004年
中国博士学位论文全文数据库 前7条
1 姚超;降维算法和手写文字识别中若干问题研究[D];西安电子科技大学;2014年
2 孙羽菲;低质量文本图像OCR技术的研究[D];中国科学院研究生院(计算技术研究所);2005年
3 陈光;特定领域OCR系统的精度与速度问题研究[D];北京邮电大学;2007年
4 程艳芬;离线阿拉伯手写体光学文字识别方法的研究[D];武汉理工大学;2009年
5 许亚美;手写维吾尔文字识别若干关键技术研究[D];西安电子科技大学;2014年
6 冯新杰;面向自然场景汉字识别的非平衡性与抗攻击性研究[D];哈尔滨工业大学;2020年
7 姚聪;自然图像中文字检测与识别研究[D];华中科技大学;2014年
中国硕士学位论文全文数据库 前20条
1 张婷婷;基于Tesseract_OCR文字识别系统的研究[D];南京邮电大学;2020年
2 陈乙麟;场景文字识别系统的设计与实现[D];北京邮电大学;2020年
3 杨海林;基于深度学习的古籍文字识别和检测[D];华南理工大学;2019年
4 李小璐;基于优化分割与提取的西夏古籍文字识别研究[D];宁夏大学;2019年
5 杨宏志;基于深度学习的自然场景文字识别[D];重庆邮电大学;2019年
6 游京翰;基于深度学习的文字序列识别系统[D];哈尔滨工业大学;2018年
7 刘兴长;基于改进模糊支持向量机的西夏文字识别研究[D];兰州交通大学;2019年
8 闫昆鹏;基于BiRNN的学生手写文字识别系统设计与实现[D];北京工业大学;2019年
9 陈玉新;基于深度学习的场景文字识别研究[D];内蒙古大学;2019年
10 李科;基于深度学习的路牌文字识别算法的研究与实现[D];湖南大学;2018年
11 高威威;基于深度学习的自然场景文字识别[D];安徽大学;2019年
12 赵星驰;基于深度学习的视频文字检测技术[D];北京邮电大学;2019年
13 张博;基于深度置信网络的图像识别算法研究[D];哈尔滨理工大学;2019年
14 邵文良;基于深度学习的医疗单据图文识别关键技术研究与实现[D];北京邮电大学;2019年
15 邹瑞杰;基于深度学习的自然英文文字识别的研究[D];电子科技大学;2019年
16 李其苏;场景物体与场景文本识别关键技术研究[D];南京大学;2016年
17 华绍君;基于图模型匹配的印章文字识别研究[D];湖南大学;2018年
18 冯玮;应用预处理技术的深度学习特征融合的文字识别算法[D];曲阜师范大学;2018年
19 赵航;基于深度学习的低质量文字识别研究[D];华中科技大学;2017年
20 丁琪;卷积神经网络在激光再现文字识别中的应用[D];华中科技大学;2017年
中国重要报纸全文数据库 前20条
1 刘路 周俊丹;南京市审计局运用OCR文字识别技术提升审计效率[N];中国审计报;2019年
2 本报记者 计红梅;文字识别进入2.0时代[N];中国科学报;2015年
3 敬松 本报记者 熊筱伟;人工智能做数学还得跨过辨识应用题这道槛[N];四川日报;2017年
4 江西 谭明裕 肖慧清;文字识别利器——ABBYY Finereader[N];电子报;2013年
5 朱桐;我国文字识别技术进入全新应用阶段[N];中国企业报;2004年
6 ;阿拉伯文文字识别系统[N];科技日报;2000年
7 清萱;清华东方文字识别技术(OCR)达国际领先水平[N];人民日报海外版;2002年
8 ;我国文字识别技术进入应用新阶段[N];人民邮电;2004年
9 记者 张建琛;文字识别技术为手机“扫盲”[N];科技日报;2005年
10 克集;少数民族文字识别系统研制成功[N];中国质量报;2007年
11 仝仁;e-card文字识别率达98.6%[N];中国计算机报;2003年
12 记者  赵凤华;少数民族文字识别系统研制成功[N];科技日报;2007年
13 机器猫;对《巧妙消除水印对文字识别的影响》一文的补充[N];电脑报;2004年
14 佚名;OCR:不可忽视的智能基础[N];中国信息化周报;2017年
15 ;文字识别技术成为搜索服务核心竞争力[N];人民邮电;2008年
16 ;中晶科技MICROTEK Phantom e7 拥有48位高色彩位深[N];中国计算机报;2002年
17 耿方圆;从图片中提取文字[N];计算机世界;2004年
18 张文国;汉王文字识别技术研发跨入新世纪[N];中国劳动保障报;2000年
19 贵州 马惠民;如何用好《白描》上的“拍照翻译”功能[N];电子报;2020年
20 柳明;拯救老旧报纸迫在眉睫[N];光明日报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978