收藏本站
《北京工业大学》 2010年
加入收藏

基于PDF文字流的表格识别技术的研究

张伯  
【摘要】: PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。 表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。 本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。
【关键词】:PDF 文字流 表格识别
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.43
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 绪论9-19
  • 1.1 研究背景9
  • 1.2 研究意义9-10
  • 1.3 相关研究与研究现状10-15
  • 1.4 本文研究思路的形成15-16
  • 1.5 本文的研究内容16
  • 1.6 本文结构16-19
  • 第2章 PDF 格式特征分析19-25
  • 2.1 PDF 介绍19-24
  • 2.1.1 PDF 的对象19-20
  • 2.1.2 PDF 的物理结构20-22
  • 2.1.3 PDF 的逻辑结构22
  • 2.1.4 PDF 文档示例22-24
  • 2.2 本章小结24-25
  • 第3章 基于PDF 文字流的表格识别技术的研究25-35
  • 3.1 PDF 表格识别的关键技术25-27
  • 3.2 文字流生成与指定内容选取27-29
  • 3.2.1 文字流概念27-28
  • 3.2.2 文字流生成与指定内容选取28-29
  • 3.3 栅格化29-31
  • 3.3.1 栅格化概念29-30
  • 3.3.2 栅格化过程描述30-31
  • 3.4 表格内容归位31-32
  • 3.5 序列化输出32-33
  • 3.5.1 序列化概念32
  • 3.5.2 序列化过程描述32-33
  • 3.6 本章小结33-35
  • 第4章 PDF 表格识别系统的设计与实现35-61
  • 4.1 PDF 表格识别系统整体设计35-39
  • 4.1.1 系统处理流程35-37
  • 4.1.2 系统层次描述37-38
  • 4.1.3 系统核心类关系38-39
  • 4.2 PDF 文档处理与封装39-41
  • 4.2.1 Foxit PDF SDK 2.039
  • 4.2.2 页的加载39-40
  • 4.2.3 页的显示40
  • 4.2.4 页的放缩和偏移40
  • 4.2.5 文档内容的拾取40
  • 4.2.6 PDF 文档处理的封装40-41
  • 4.3 文字流生成与框选内容抽取41-44
  • 4.3.1 文字流生成41
  • 4.3.2 内容选取与文字流格式化实现41-44
  • 4.4 栅格化44-46
  • 4.4.1 栅格化类的设计44
  • 4.4.2 栅格化实现44-46
  • 4.5 表格内容归位46-49
  • 4.5.1 表格内容归位相关类设计46-47
  • 4.5.2 表格内容归位实现47-49
  • 4.6 序列化输出49-54
  • 4.6.1 HTML 介绍49-51
  • 4.6.2 序列化输出相关类描述51-52
  • 4.6.3 序列化输出实现52-54
  • 4.7 测试与分析54-60
  • 4.7.1 测试环境54-55
  • 4.7.2 测试流程55
  • 4.7.3 测试用例设计55
  • 4.7.4 测试结果55-60
  • 4.7.5 测试小结60
  • 4.8 本章小结60-61
  • 结论61-63
  • 本文总结61-62
  • 未来工作与展望62-63
  • 参考文献63-67
  • 攻读硕士学位期间发表的学术论文67-69
  • 致谢69-70

【引证文献】
中国期刊全文数据库 前1条
1 王睿佳;刘耀;;面向科技文献的多模态语义关联特征提取与表达体系研究[J];大学图书馆学报;2012年05期
【参考文献】
中国期刊全文数据库 前6条
1 赵楠楠,欧阳鑫玉,吴庆洪;线性回归与Hough变换在计算图像倾斜角度中的应用[J];鞍山科技大学学报;2003年06期
2 刘长松,潘世言,郑冶枫,丁晓青;一种表格框线检测和字线分离算法[J];电子与信息学报;2002年09期
3 郑冶枫;刘长松;丁晓青;;线宽阈值法去除表格框线[J];模式识别与人工智能;2001年02期
4 郑冶枫,刘长松,丁晓青,潘世言;基于有向单连通链的表格框线检测算法[J];软件学报;2002年04期
5 张重阳,娄震,徐勇,杨静宇;票据图像中的格线检测与去除[J];计算机工程与设计;2005年07期
6 瞿洋,杨利平;Hough变换OCR图象倾斜矫正方法[J];中国图象图形学报;2001年02期
【共引文献】
中国期刊全文数据库 前10条
1 赵楠楠,欧阳鑫玉,吴庆洪;线性回归与Hough变换在计算图像倾斜角度中的应用[J];鞍山科技大学学报;2003年06期
2 胡明鹏;马冬梅;刘志祥;马磊;;红外焦平面阵列无效像元检测技术研究[J];半导体光电;2008年02期
3 乔爱科;马章军;;基于子图像的生物芯片质量检测算法[J];北京工业大学学报;2008年01期
4 刘秀兰;董爻;余庠;;数字图像处理技术在荧光磁粉探伤系统中的应用[J];北京工业大学学报;2008年02期
5 徐艳芳;黄敏;刘浩学;;旋转操作对数字图像颜色数值的影响[J];北京印刷学院学报;2007年04期
6 迟慧慧;唐正宁;;全自动印品质量检测系统的技术分析[J];包装工程;2006年03期
7 姜燕;张逸新;;印刷墨斑计算模型及其分析[J];包装工程;2008年08期
8 滕世明;王森;许志闻;;基于结构光和序列图像的三维重建方法[J];吉林大学学报(信息科学版);2009年04期
9 董光;师为礼;赵运隆;;一种医学图像压缩方法的研究[J];长春理工大学学报(自然科学版);2009年03期
10 许微;侯正信;;基于扩散率函数的图像放大算法[J];传感技术学报;2006年04期
中国重要会议论文全文数据库 前10条
1 叶乐军;王强;;基于自适应边缘检测的大空间火灾目标监测技术[A];中国职业安全健康协会2007年学术年会论文集[C];2007年
2 王宁;游志胜;潘薇;李贵俊;;一种护照编码自动识别方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
3 叶红兵;弟宇鸣;邱晓林;李天柁;;核径迹图像噪声分析和消除方法研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
4 张智博;王艳;殷天明;;基于TCS230的颜色识别系统设计[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
5 熊凌;杨岚;陶诗锦;周俊;;基于图像处理的钢帘线表面缺陷特征分析[A];湖北省机械工程学会设计与传动学会、武汉机械设计与传动学会2008年学术年会论文集(1)[C];2008年
6 薛瑞;邵建斌;陈刚;李国栋;董少敏;;基于MATLAB的泄洪洞气泡运动轨迹检测[A];陕西省水力发电工程学会青年优秀学术论文集[C];2008年
7 董华军;廖敏夫;邹积岩;文化宾;;MATLAB在真空电弧图像处理中的应用[A];第一届电器装备及其智能化学术会议论文集[C];2007年
8 杨富康;杨世兴;吴亚鹏;;一种基于多特征融合的多目标跟踪算法[A];第十八届全国煤矿自动化学术年会中国煤炭学会自动化专业委员会学术会议论文集[C];2008年
9 侯占峰;韩靖玉;韩宝生;;基于图像的杂草分形维数研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
10 赵朝杰;朱虹;黎璐;董敏;袁承兴;;基于内容感知的图像非等比例缩放[A];第十四届全国图象图形学学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 谢莉青;基于图像处理分析的机织物构成要素的综合识别方法与装置[D];东华大学;2010年
2 金长江;基于近红外光谱与机器视觉技术的浆果品质检测研究[D];东北农业大学;2011年
3 邓集杰;支票印鉴快速检测方法中的关键技术研究[D];天津大学;2010年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 高卫东;基于图像分析的织物起毛起球自动评级研究[D];东华大学;2011年
6 石先军;羊绒特征判析准则及快速识别算法研究[D];东华大学;2011年
7 杨波;基于内容的文档图象压缩方法研究[D];重庆大学;2002年
8 张重阳;票据自动处理系统中的预处理技术研究[D];南京理工大学;2004年
9 娄正良;中文邮政地址识别研究[D];中国科学院研究生院(计算技术研究所);2004年
10 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 蒲锰;非侵入式矿井提升机PLC电控系统实时故障诊断方法的研究[D];山东科技大学;2010年
3 潘博;基于小波变换的图像编码与解码技术的研究[D];长春理工大学;2010年
4 张亚军;有限状态设备的移动监视与识别方法的研究[D];浙江理工大学;2010年
5 胡艳;机织物图像自动纠偏及组织分析的研究[D];浙江理工大学;2010年
6 杨婷婷;经纬同色丝绸提花面料表达色彩渐变画图的数码织造方法[D];浙江理工大学;2010年
7 李华北;基于数字图像技术在土木结构物损伤裂缝检查应用的研究[D];郑州大学;2010年
8 琚新刚;基于SOPC技术的数字视频接口研制[D];郑州大学;2010年
9 姚慧娟;光视觉球形目标识别技术的研究[D];哈尔滨工程大学;2010年
10 张涛;基于离散点云的三维重建研究与实现[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 潘巍;王阳生;杨宏戟;;多模态信息融合的一般功能模型设计——基于融合功能与信息层次[J];计算机工程与应用;2006年29期
2 王行荣;应俊;;手写表格识别系统研究和实现[J];计算机科学;2008年06期
3 张元清;包骏杰;况夯;钟洪;;基于贝叶斯理论的图像标注和检索[J];计算机科学;2008年08期
4 栾悉道;谢毓湘;谭义红;陈治平;赵碧海;胡赛;;多媒体语义模型研究进展[J];计算机科学;2010年11期
5 万华林,Morshed U.Chowdhury,胡宏,史忠植;图像纹理特征及其在CBIR中的应用[J];计算机辅助设计与图形学学报;2003年02期
6 靳简明;江红英;王庆人;;数学公式识别系统:MatheReader[J];计算机学报;2006年11期
7 於志文;周兴社;於志勇;;普适个性化多媒体服务技术综述[J];计算机应用研究;2006年10期
8 朱永生;;多模态话语分析的理论基础与研究方法[J];外语学刊;2007年05期
9 刘耀;穗志方;胡永伟;赵庆亮;;基于内容与形式交互的图书馆资源组织语义化方法研究[J];情报理论与实践;2010年10期
10 潘小燕;孙承杰;刘远超;王晓龙;;半结构化文本中的表格识别技术研究[J];微计算机信息;2008年18期
中国硕士学位论文全文数据库 前2条
1 谢亮;表格识别预处理技术与表格字符提取算法的研究[D];中山大学;2005年
2 谈泉;多模态医学图像融合技术的研究及评价体系的建立[D];华中科技大学;2006年
【二级参考文献】
中国期刊全文数据库 前2条
1 胡钟山,娄震,杨静宇;文档处理中消除线噪声的研究[J];计算机研究与发展;1999年08期
2 瞿洋,杨利平;Hough变换OCR图象倾斜矫正方法[J];中国图象图形学报;2001年02期
【相似文献】
中国期刊全文数据库 前10条
1 林天;PDF文档与Web数据库接口技术初探[J];计算机应用;2000年05期
2 林天;PDF的交互性及其Web出版技术初探[J];计算机时代;1999年12期
3 林天;PDF的交互性及其Web出版技术初探[J];计算机系统应用;2000年02期
4 伍春华,陈文革;MTA模型在仿真实际流量中的应用研究[J];广东通信技术;2000年11期
5 李贵林,李建中,杨艳;用Plug-in实现对PDF文件的信息提取[J];计算机应用;2003年02期
6 张静,张春田;用于PDF文档认证的数字水印算法[J];天津大学学报;2003年02期
7 李贵林,李建中,杨艳;数字图书馆中信息采集子系统的设计与实现[J];计算机工程与应用;2004年02期
8 刘丹非,李曼义,郭金怀;教育技术媒体新的传媒形式——PDF文档[J];云南师范大学学报(自然科学版);2003年06期
9 伍春华,陈文革,蔡自兴;基于逼近算法的PDF建模及其仿真[J];计算机仿真;2001年03期
10 伍春华,蔡自兴,谢喜秋,陈文革;基于Client/Server应用层包跟踪技术的CSPA软件开发和仿真[J];小型微型计算机系统;2002年02期
中国重要会议论文全文数据库 前10条
1 周国祥;顾钧;;关于PDF文档加密方法的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
2 翟震;曹国华;;基于VC6.0环境下的PDF文件生成技术[A];第十三届全国包装工程学术会议论文集[C];2010年
3 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
5 董国霞;孙薇;张月琴;余利岩;张玉琴;魏玉珍;李秋萍;刘红宇;姜威;司书毅;;以肠球菌PDF酶为靶点的新药筛选及活性菌株的鉴定[A];2008年中国微生物学会学术年会论文摘要集[C];2008年
6 杨冬;蔡斐;;解决Word排版转换为PDF文件时出现问题的方法[A];2008年第四届中国科技期刊发展论坛论文集[C];2008年
7 姚启红;徐鹏;;基于Java技术的XSL-FO数据转换引擎——XSL数据表示引擎[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年
8 宇婧婧;沈艳;潘旸;徐宾;;基于地面观测降水订正卫星反演降水系统误差(PDF)方法在中国地区的应用[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
9 万汉清;姚春旻;;由CTP的引进浅谈数字化工作流程中信息记录与传递的重要性[A];中国航海学会航标专业委员会测绘学组学术研讨会学术交流论文集[C];2006年
10 姜发国;;网络出版与地图的制作和传播[A];2001年东北三省测绘学术与信息交流会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 樊哲高;福昕:打造中国的PDF[N];中国电子报;2011年
2 仇丰刚;采用PDF417技术 有效打击涉牌违法[N];人民公安报·交通安全周刊;2011年
3 本报记者 林侃 卢雅;领舞PDF技术的江西小伙子[N];福建日报;2009年
4 本报记者 边歆;黑客利用PDF漏洞发动攻击[N];网络世界;2010年
5 ;利用Google公开发布PDF文档[N];中国电脑教育报;2009年
6 ;英国国家统计局利用PDF改善信息发布[N];中国信息报;2001年
7 马晓红 本报记者 樊立新;完成“不可能完成”的任务[N];大众科技报;2004年
8 本报记者 王晓明;小表格有大作为[N];中国电脑教育报;2007年
9 ;完成“不可能完成”的任务[N];中国信息报;2004年
10 丽华;借助OpenOffice.org 编辑PDF文档[N];中国电脑教育报;2009年
中国博士学位论文全文数据库 前10条
1 靳从;中文版面分析关键技术的研究[D];南京理工大学;2007年
2 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
3 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
4 张成榆;基于PDF盲均衡算法和修正恒模算法的研究[D];大连海事大学;2010年
5 陈晓刚;现代编码的性能分析与简化译码算法[D];北京邮电大学;2010年
6 尹玲;新型肽脱甲酰基酶抑制剂的设计、合成与生物活性研究[D];山东大学;2010年
7 于晓;基于嵌入式Linux的仪器操作系统的研究[D];西安电子科技大学;2009年
8 李铭新;血浆透析滤过在脓毒症中的应用[D];复旦大学;2010年
9 王宇;去甲酰化酶结构与功能关系的X射线吸收谱学定量研究[D];中国科学技术大学;2012年
10 邓锋林;核心顺式元件HDZIP2ATATHB2依赖的海岛棉表皮原因子1(GbPDF1)在棉花纤维起始过程中起重要作用[D];华中农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张伯;基于PDF文字流的表格识别技术的研究[D];北京工业大学;2010年
2 艾华;基于PDF的文献管理软件的开发[D];东北农业大学;2010年
3 武雪峰;恶意PDF文档的分析[D];山东大学;2012年
4 顾钧;基于数字版权系统的PDF文档安全性研究与应用[D];合肥工业大学;2011年
5 张慧;基于模型驱动的表格识别的研究[D];山东大学;2011年
6 周培和;PDF文件格式漏洞挖掘系统的研究及实现[D];电子科技大学;2012年
7 杨琳;客户端监控在PDF文档版权保护中的应用研究[D];合肥工业大学;2011年
8 吴自文;插件技术在PDF文档安全保护中的研究与应用[D];合肥工业大学;2011年
9 薛磊;源代码文件转换为语法高亮PDF文件的工具[D];大连理工大学;2012年
10 任林涛;PDF格式中文科技论文的有效信息提取方法及分类研究[D];吉林大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026