收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文档图象版面理解的研究

刘建胜  
【摘要】: 随着信息时代的来临,数字信息已经成为人类最重要的资源。大量的信息记录在纸质文档上,而纸质文档具有不便于长期保存、检索和数据挖掘的缺点。因此,纸质文档的电子化、数字化处理已成发展趋势。采用传统的手工录入的方法实现大量纸质文档电子化是不现实的。随着OCR(Optical Character Recognition)技术不断发展与成熟,人们开始利用计算机对文档进行自动处理,提高了文档处理的效率、节约了人力和物力。文档图像自动处理越来越受到人们的重视,并开始应用到日常生活中。 文档图像自动处理主要包括文档图像的版面理解(Document Layout Understanding)和OCR识别。OCR识别研究起步较早,已经达到较为实用的程度。而文档图像的版面理解直到90年代才得到人们的重视,在这方面研究的不足已成为制约文档处理推广应用的主要因素。本文在收集和分析了大量近年来国内外文档图像处理方面的研究报告、学术论文等专业资料,对文档图像版面理解所涉及的若干理论问题进行了探讨;着重对文档图像的倾斜估计、表格文档图像的版面理解和汉字的字体识别(Optical Font Recognition OFR)进行了研究。主要工作包括: 1.对文档图像的预处理进行了研究。文档图像会产生一定的歪斜,文档版面理解和OCR识别算法对文档的倾斜非常敏感,文档图像的倾斜校正十分重要。针对种类繁多、版面复杂的文档,本文提出了基于版面内容的文档图像倾斜校正方法,通过小波变换、游长平滑(Run Length Smoothing)和细化处理,提取文档中的水平和垂直的线条和文字行,针对不同的文档版面采用相应的策略进行倾斜估计。并采用误差合成的方法减小倾斜估计的误差。实验表明该方法具有精度高和适应性强的特点,具有实用价值。 2.采用表格版面的背景信息来定位表格的几何结构是目前表格处理的研究热点。本文提出了基于最佳坐标系的表格结构提取方法,利用分布在表格中的水平和垂直线条作为定位标记,用这些定位标记组成多个定位坐标系,可将一幅表格划分为多个小区域,每个坐标系定位其附近的一个小区域。由于每个坐标系定位的区域较小,所以有效的消除了表格图像畸变的影响。在图像噪声较多,有的定位标记不能正确提取时,仅会使得定位坐标系的数目减小,有的坐标系定位的区域稍大一些,同样可以提取出表格的几何结构,该方法具有很强的抗干扰能力。 3.表格文档处理前要进行表格的学习,获取表格文档版面结构的先验知识。由于表格文档中需要处理的信息大多数是人工填写的字符,本文提出了基于印刷体与手写体识别的表格几何结构自动学习方法。通过手写体与印刷体识别,自动确定手写体区域的位置和大小。采用监督聚类(Supervised Claster)与支持向量机(SVM)相结合的识别方法(SCSVM算法)用于手写体与印刷体识别。本文对聚类识别方法进行了改进,建 重庆大学博士学位论文 立了聚类识别的拒识规则。充分利用了聚类识别速度快和支持向量机识别精度高的特点。 提出的SCSVM算法对于其它两类识别问题也具有普遍意义。 4.对字体识别的方法进行了研究。不同字体的汉字笔段(横、竖、撇、捺)具有 大致相同的形状,不同的地方在于笔段细节上的差异。小波包在空间和频域上均有较好 的局部性,本文将小波包变换提取的纹理特征用于字体识别。提出了基于BP神经网络和 子空间分类器串联的综合集成识别方法。BP网络的学习速度很慢,而且需要经验来调整 学习参数,但它具有识别能力强、识别精度高的特点;而子空间分类器具有学习速度快、 无需人工千预的特点。在识别过程中,可以将识别系统拒识的模式样本收集起来,调用 子空间识别器的学习程序进行再学习。这样,该综合集成系统就具有了再学习能力。在 实际使用中,通过学习将会进一步提高字体识别精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王泉;文档处理高手[东芝e-STUDIO 550/650/810数码复合机][J];个人电脑;2003年08期
2 袁楚;;社会化的在线文档处理[J];互联网天地;2010年05期
3 黄林雄;在Word文档处理中应用绘图工具的技巧[J];教育信息化;2005年03期
4 洪新华;夏群兵;;XSLT在XML文档中的应用研究[J];电脑知识与技术;2009年05期
5 钱芳;;宝“鉴”锋从文档管理来——国内平板扫描仪文档管理市场[J];数码世界;2006年07期
6 方春燕;李宁;赵菁华;吴志刚;;《中文办公软件文档格式规范》对用户数据的支持方式探讨[J];信息技术与标准化;2006年10期
7 周建峰;;用好查找和替换,文档处理更轻松[J];电脑爱好者;2009年15期
8 江代有;文档处理大师——WPS 2000系列讲座[J];电脑知识与技术;1999年06期
9 陈明,丁晓青,梁健;复杂中文报纸的版面分析、理解和重构[J];清华大学学报(自然科学版);2001年01期
10 张晓刚;;JDOM和DOM之比较[J];科学技术与工程;2006年21期
11 吕亚军;陈继荣;鹿晓亮;;基于内容的文档图像倾斜校正[J];计算机仿真;2006年12期
12 李宁;牟永敏;董慧;方春燕;;文档格式中“内容”与“表现”的分离与融合[J];电子学报;2007年02期
13 汪瑷珍;;PDF解决打印输出和文档处理技巧[J];电脑知识与技术;2010年17期
14 侯霞;李宁;樊凯;;开放的复合文档OpenCDF模型及其实现[J];北京信息科技大学学报(自然科学版);2011年02期
15 比超;;流动带来的收益[J];中国计算机用户;2004年17期
16 ;最新软件精选 Doc文档处理小工具[J];新电脑;2007年07期
17 卢小雷;;老兵新传 HP Scanjet 7000文档扫描仪[J];个人电脑;2009年04期
18 李振华;;关于WORD长文档处理过程中几个特殊问题的研究[J];科技信息;2011年01期
19 郭本俊;;基于JDOM的XML文档处理的设计与实现[J];电脑学习;2006年06期
20 马慧;叶飞;;电子作业处理系统在线批改功能的实现[J];软件导刊;2008年09期
中国重要会议论文全文数据库 前10条
1 杨芳;田学东;郭宝兰;;一种改进的字体纹理识别方法[A];第八届全国汉字识别学术会议论文集[C];2002年
2 朱学芳;邹文豪;朱鹏;;基于Gabor函数的字体识别实验研究[A];第十五届全国图象图形学学术会议论文集[C];2010年
3 张硕;李建中;王宏志;何震瀛;;基于扩展编码的在线XML文档加载机制[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 朱学芳;邹文豪;王栾井;;对字体识别中Gabor滤波器参数的实验研究[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 田学东;郭宝兰;;基于纹理特征的版式识别研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 郝海蓉;申永军;周亚建;杨义先;;基于二值图像水印的电子签章系统研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 张延华;王国刚;李鹏辉;刘彦春;;基于XML的QEIP-ES构建方法研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
8 靳简明;江红英;;印刷体数学公式处理研究现状[A];2001年中国智能自动化会议论文集(上册)[C];2001年
9 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 巴亮;林俐;郭亚成;沈辉;;地区电网继电保护运行决策专家系统知识结构化表示方法研究[A];2006电力系统自动化学术交流研讨大会论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 刘建胜;文档图象版面理解的研究[D];重庆大学;2002年
2 靳从;中文版面分析关键技术的研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 张晶晶;基于版面理解的选票识别若干关键技术研究[D];浙江工业大学;2012年
2 邓立国;基于多层次可信度指导下的自底向上版面分析[D];西华大学;2006年
3 王宇;中文版面分析与重构研究[D];河北大学;2003年
4 李宏峰;基于OCR的试卷版面理解[D];安徽工业大学;2012年
5 杨芳;基于纹理分析的印刷字体识别研究及应用[D];河北大学;2003年
6 郑文良;非文本优先的版面分析方法[D];沈阳理工大学;2009年
7 许春晔;基于整体纹理分析的汉字字体识别[D];河北大学;2001年
8 刘海萍;基于版面理解的选票快速识别方法研究[D];浙江工业大学;2007年
9 王洪;基于子空间的手写字符集成识别研究与应用[D];重庆大学;2003年
10 王涤琼;对利用边界标定自动机进行文档图像分析的研究[D];华东师范大学;2005年
中国重要报纸全文数据库 前10条
1 李献;海量输出的解决之道[N];计算机世界;2008年
2 郭涛;从打印机到文档处理中心[N];中国计算机报;2002年
3 计算机世界实验室 吴挺;文档处理快枪手[N];计算机世界;2009年
4 计算机世界实验室 李献;办公输出的中坚力量[N];计算机世界;2009年
5 张亚萍;炫彩900HA问市 Eee PC 900系列添新丁[N];大众科技报;2008年
6 王耀翠;廖兆存 攀登世界科技文档软件高峰[N];中国高新技术产业导报;2005年
7 龚杰;Acrobat 6.0“全能”文档处理工具[N];计算机世界;2003年
8 李锋白;让信息摆脱纸张束缚[N];中国计算机报;2007年
9 本报记者 聂翠蓉;探索世界科技文档软件最高标准[N];科技日报;2005年
10 边歆;UOML打通文档互操作“经络”[N];网络世界;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978