基于PDF文字流的表格识别技术的研究
【摘要】:
PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。
表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。
本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。
【关键词】:PDF 文字流 表格识别 【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.43
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-19
- 1.1 研究背景9
- 1.2 研究意义9-10
- 1.3 相关研究与研究现状10-15
- 1.4 本文研究思路的形成15-16
- 1.5 本文的研究内容16
- 1.6 本文结构16-19
- 第2章 PDF 格式特征分析19-25
- 2.1 PDF 介绍19-24
- 2.1.1 PDF 的对象19-20
- 2.1.2 PDF 的物理结构20-22
- 2.1.3 PDF 的逻辑结构22
- 2.1.4 PDF 文档示例22-24
- 2.2 本章小结24-25
- 第3章 基于PDF 文字流的表格识别技术的研究25-35
- 3.1 PDF 表格识别的关键技术25-27
- 3.2 文字流生成与指定内容选取27-29
- 3.2.1 文字流概念27-28
- 3.2.2 文字流生成与指定内容选取28-29
- 3.3 栅格化29-31
- 3.3.1 栅格化概念29-30
- 3.3.2 栅格化过程描述30-31
- 3.4 表格内容归位31-32
- 3.5 序列化输出32-33
- 3.5.1 序列化概念32
- 3.5.2 序列化过程描述32-33
- 3.6 本章小结33-35
- 第4章 PDF 表格识别系统的设计与实现35-61
- 4.1 PDF 表格识别系统整体设计35-39
- 4.1.1 系统处理流程35-37
- 4.1.2 系统层次描述37-38
- 4.1.3 系统核心类关系38-39
- 4.2 PDF 文档处理与封装39-41
- 4.2.1 Foxit PDF SDK 2.039
- 4.2.2 页的加载39-40
- 4.2.3 页的显示40
- 4.2.4 页的放缩和偏移40
- 4.2.5 文档内容的拾取40
- 4.2.6 PDF 文档处理的封装40-41
- 4.3 文字流生成与框选内容抽取41-44
- 4.3.1 文字流生成41
- 4.3.2 内容选取与文字流格式化实现41-44
- 4.4 栅格化44-46
- 4.4.1 栅格化类的设计44
- 4.4.2 栅格化实现44-46
- 4.5 表格内容归位46-49
- 4.5.1 表格内容归位相关类设计46-47
- 4.5.2 表格内容归位实现47-49
- 4.6 序列化输出49-54
- 4.6.1 HTML 介绍49-51
- 4.6.2 序列化输出相关类描述51-52
- 4.6.3 序列化输出实现52-54
- 4.7 测试与分析54-60
- 4.7.1 测试环境54-55
- 4.7.2 测试流程55
- 4.7.3 测试用例设计55
- 4.7.4 测试结果55-60
- 4.7.5 测试小结60
- 4.8 本章小结60-61
- 结论61-63
- 本文总结61-62
- 未来工作与展望62-63
- 参考文献63-67
- 攻读硕士学位期间发表的学术论文67-69
- 致谢69-70
|
|
|
|
| 1 |
赵楠楠,欧阳鑫玉,吴庆洪;线性回归与Hough变换在计算图像倾斜角度中的应用[J];鞍山科技大学学报;2003年06期 |
| 2 |
刘长松,潘世言,郑冶枫,丁晓青;一种表格框线检测和字线分离算法[J];电子与信息学报;2002年09期 |
| 3 |
郑冶枫;刘长松;丁晓青;;线宽阈值法去除表格框线[J];模式识别与人工智能;2001年02期 |
| 4 |
郑冶枫,刘长松,丁晓青,潘世言;基于有向单连通链的表格框线检测算法[J];软件学报;2002年04期 |
| 5 |
张重阳,娄震,徐勇,杨静宇;票据图像中的格线检测与去除[J];计算机工程与设计;2005年07期 |
| 6 |
瞿洋,杨利平;Hough变换OCR图象倾斜矫正方法[J];中国图象图形学报;2001年02期 |
|
|
|
|
|
| 1 |
林天;PDF文档与Web数据库接口技术初探[J];计算机应用;2000年05期 |
| 2 |
林天;PDF的交互性及其Web出版技术初探[J];计算机时代;1999年12期 |
| 3 |
林天;PDF的交互性及其Web出版技术初探[J];计算机系统应用;2000年02期 |
| 4 |
伍春华,陈文革;MTA模型在仿真实际流量中的应用研究[J];广东通信技术;2000年11期 |
| 5 |
李贵林,李建中,杨艳;用Plug-in实现对PDF文件的信息提取[J];计算机应用;2003年02期 |
| 6 |
张静,张春田;用于PDF文档认证的数字水印算法[J];天津大学学报;2003年02期 |
| 7 |
李贵林,李建中,杨艳;数字图书馆中信息采集子系统的设计与实现[J];计算机工程与应用;2004年02期 |
| 8 |
刘丹非,李曼义,郭金怀;教育技术媒体新的传媒形式——PDF文档[J];云南师范大学学报(自然科学版);2003年06期 |
| 9 |
伍春华,陈文革,蔡自兴;基于逼近算法的PDF建模及其仿真[J];计算机仿真;2001年03期 |
| 10 |
伍春华,蔡自兴,谢喜秋,陈文革;基于Client/Server应用层包跟踪技术的CSPA软件开发和仿真[J];小型微型计算机系统;2002年02期 |
|