收藏本站
《中山大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

表格识别预处理技术与表格字符提取算法的研究

谢亮  
【摘要】:OCR 是模式识别中最热门的研究领域之一,而表格识别是OCR 的一个重要的研究和应用方向。本文主要讨论表格识别中的两个问题,即表格识别预处理技术与表格字符提取算法。 二值化是图像处理和字符识别中相当重要的一个环节。本文在现有的图像二值化算法的基础上,针对手写表格文档提出了一种基于非线性对比度增强及LoG算子的混合二值化方法,基本上克服了现有方法所存在的对噪声敏感、速度较慢、易导致笔划断裂等缺点。实验证明该方法比传统方法有显著改进。 待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像,在Hough 变换的基础上提出了一种带参数约束条件的Hough 变换——HTPC,有效降低了传统Hough 变换的计算复杂度,并结合一种快速图像旋转方法,实现了对表格文档图像的快速倾斜角检测及校正。 本文研究的重点之一是如何解决表格文档中手写字符经常重叠表格边框线的问题。为此,我们提出了一种新方法来准确定位和完整地提取重叠边框线的字符,即先通过CTF 过程准确地定位并提取出表格的所有单元格,再通过ECCEA方法完整地提取出表格中的字符,然后利用基于连通区域检测的去噪算法对图像进行去噪,最后对字符图像进行平滑化处理。实验表明了我们的方法的有效性。 最后,我们利用本文提出的表格文档预处理及字符提取算法,并结合我们对字符分割、特征提取以及分类器设计等问题的最新研究,研制开发了Windows平台上适用的《成绩单自动识别系统》,其总体识别率平均达到了90.89%。
【学位授予单位】:中山大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.4

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 周开东;许静;;OCR切割性能自动评测[J];计算机应用与软件;2011年07期
2 徐永芳;;OCR技术在档案数字化过程中的应用[J];艺术科技;2011年02期
3 王红霞;程艳芬;;改进的EM算法在分块灰度图像二值化中的应用[J];武汉理工大学学报(交通科学与工程版);2011年04期
4 纪宏伟;;对PDF文档的认识与应用探讨[J];计算机时代;2011年06期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 王景中;霍超;;基于OCR技术的盲用阅读器设计[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 毛经坤;罗予频;邱中奇;;复杂背景噪音下表格框线判定中的问题和解决方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
4 范杰清;孙凤杰;李宝儒;;OCR技术在高压断路器开关图像识别中的应用[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
5 梁莹;施善旦;;海蓝目录自动识别系统的设计[A];广西计算机学会2004年学术年会论文集[C];2004年
6 谭怒涛;刘昌平;黄磊;;中英文文档中公式定位[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 胡溪;;DICOM打印服务在放射科的应用[A];2010中华医学会影像技术分会第十八次全国学术大会论文集[C];2010年
8 ;A new algorithm for text segmentation based on stroke filter[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
9 马志超;张小静;宋洪涛;;氙灯日光模拟器下有机防晒剂在乳膏中的光降解研究[A];2011年中国药学大会暨第11届中国药师周论文集[C];2011年
10 梁莹;肖健;李玥;;多引擎印刷体汉字识别系统研发[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 刘津;OCR,苹果熟了[N];北京科技报;2002年
2 马庆仁;扫描仪水涨OCR船高[N];中国企业报;2000年
3 肖苇;OCR最后的一张骨牌[N];中国质量报;2002年
4 本报记者 季捷;扫描仪价格狂降OCR夺路而逃[N];计算机世界;2002年
5 ;OCR产业慢启动完成快增长来临?[N];中国高新技术产业导报;2002年
6 利乐;利乐启动OCR计划与客户合作共赢[N];中国包装报;2010年
7 刘雨;依托解决方案 拓展OCR渠道[N];中国计算机报;2002年
8 马晓红 本报记者 樊立新;完成“不可能完成”的任务[N];大众科技报;2004年
9 本报记者 王晓明;小表格有大作为[N];中国电脑教育报;2007年
10 ;完成“不可能完成”的任务[N];中国信息报;2004年
中国博士学位论文全文数据库 前9条
1 靳从;中文版面分析关键技术的研究[D];南京理工大学;2007年
2 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
3 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
4 张艳;票据自动处理系统中若干关键技术研究[D];南京理工大学;2008年
5 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
6 程艳芬;离线阿拉伯手写体光学文字识别方法的研究[D];武汉理工大学;2009年
7 丁杰;无限制手写体数字串切分与识别的相关问题研究[D];南京理工大学;2010年
8 田大增;视觉文档图像识别预处理[D];河北大学;2007年
9 汪炜;卢梭与Narcisse问题[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 张慧;基于模型驱动的表格识别的研究[D];山东大学;2011年
2 谢亮;表格识别预处理技术与表格字符提取算法的研究[D];中山大学;2005年
3 霍超;嵌入式OCR系统的研究[D];北方工业大学;2010年
4 田晓光;航空气象地图的分层化OCR系统及其若干关键技术的研究[D];电子科技大学;2010年
5 郭军;信息资源数字化文本型数字图像OCR识别准确度影响因素及提高策略研究[D];郑州大学;2011年
6 郇政永;基于OCR的中文文本校对研究[D];北方工业大学;2011年
7 陈波;基于OCR技术的飞机定检数据收集系统设计[D];电子科技大学;2010年
8 王文姣;OCR图像采集参数自动选择的研究[D];河北大学;2009年
9 李宏峰;基于OCR的试卷版面理解[D];安徽工业大学;2012年
10 张伯;基于PDF文字流的表格识别技术的研究[D];北京工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026