收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于PDF文字流的表格识别技术的研究

张伯  
【摘要】: PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。 表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。 本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 林天;PDF文档与Web数据库接口技术初探[J];计算机应用;2000年05期
2 林天;PDF的交互性及其Web出版技术初探[J];计算机时代;1999年12期
3 林天;PDF的交互性及其Web出版技术初探[J];计算机系统应用;2000年02期
4 伍春华,陈文革;MTA模型在仿真实际流量中的应用研究[J];广东通信技术;2000年11期
5 李贵林,李建中,杨艳;用Plug-in实现对PDF文件的信息提取[J];计算机应用;2003年02期
6 张静,张春田;用于PDF文档认证的数字水印算法[J];天津大学学报;2003年02期
7 李贵林,李建中,杨艳;数字图书馆中信息采集子系统的设计与实现[J];计算机工程与应用;2004年02期
8 刘丹非,李曼义,郭金怀;教育技术媒体新的传媒形式——PDF文档[J];云南师范大学学报(自然科学版);2003年06期
9 伍春华,陈文革,蔡自兴;基于逼近算法的PDF建模及其仿真[J];计算机仿真;2001年03期
10 伍春华,蔡自兴,谢喜秋,陈文革;基于Client/Server应用层包跟踪技术的CSPA软件开发和仿真[J];小型微型计算机系统;2002年02期
11 林其水;网络出版中的排版技术特点[J];今日印刷;2003年10期
12 张砚,闪永强;关于PDF与跨平台发行文件的解决方案[J];测绘学院学报;2003年01期
13 王祥;Adobe Acrobat在图书馆文献数字化中的应用[J];图书馆界;2003年04期
14 徐郑立;发排AutoCAD文件的新方法[J];印刷杂志;2004年05期
15 葛一兵,余智华;基于XML的PDF文档内容与结构的表示的实现[J];计算机工程与应用;2004年14期
16 徐鹏,王克宏;基于Web的数据采集和在线发布系统[J];计算机工程与应用;2002年15期
17 游安弼,吴建军,黄志强;动态生成PDF文档的Java实现[J];计算机时代;2004年05期
18 董慧,陈琮,雷瑛;基于J2EE规范的数字图书馆示范模型的设计与实现(下)——关键技术分析[J];情报学报;2004年03期
19 王琳琳;PDF文件格式及其在图书馆中的应用[J];现代情报;2005年06期
20 周朝晖;;PDF文档无障碍研究[J];科技情报开发与经济;2011年16期
中国重要会议论文全文数据库 前10条
1 周国祥;顾钧;;关于PDF文档加密方法的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
2 翟震;曹国华;;基于VC6.0环境下的PDF文件生成技术[A];第十三届全国包装工程学术会议论文集[C];2010年
3 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
5 董国霞;孙薇;张月琴;余利岩;张玉琴;魏玉珍;李秋萍;刘红宇;姜威;司书毅;;以肠球菌PDF酶为靶点的新药筛选及活性菌株的鉴定[A];2008年中国微生物学会学术年会论文摘要集[C];2008年
6 杨冬;蔡斐;;解决Word排版转换为PDF文件时出现问题的方法[A];2008年第四届中国科技期刊发展论坛论文集[C];2008年
7 姚启红;徐鹏;;基于Java技术的XSL-FO数据转换引擎——XSL数据表示引擎[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年
8 宇婧婧;沈艳;潘旸;徐宾;;基于地面观测降水订正卫星反演降水系统误差(PDF)方法在中国地区的应用[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
9 万汉清;姚春旻;;由CTP的引进浅谈数字化工作流程中信息记录与传递的重要性[A];中国航海学会航标专业委员会测绘学组学术研讨会学术交流论文集[C];2006年
10 姜发国;;网络出版与地图的制作和传播[A];2001年东北三省测绘学术与信息交流会论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 靳从;中文版面分析关键技术的研究[D];南京理工大学;2007年
2 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
3 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
4 张成榆;基于PDF盲均衡算法和修正恒模算法的研究[D];大连海事大学;2010年
5 陈晓刚;现代编码的性能分析与简化译码算法[D];北京邮电大学;2010年
6 尹玲;新型肽脱甲酰基酶抑制剂的设计、合成与生物活性研究[D];山东大学;2010年
7 于晓;基于嵌入式Linux的仪器操作系统的研究[D];西安电子科技大学;2009年
8 李铭新;血浆透析滤过在脓毒症中的应用[D];复旦大学;2010年
9 王宇;去甲酰化酶结构与功能关系的X射线吸收谱学定量研究[D];中国科学技术大学;2012年
10 邓锋林;核心顺式元件HDZIP2ATATHB2依赖的海岛棉表皮原因子1(GbPDF1)在棉花纤维起始过程中起重要作用[D];华中农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张伯;基于PDF文字流的表格识别技术的研究[D];北京工业大学;2010年
2 艾华;基于PDF的文献管理软件的开发[D];东北农业大学;2010年
3 武雪峰;恶意PDF文档的分析[D];山东大学;2012年
4 顾钧;基于数字版权系统的PDF文档安全性研究与应用[D];合肥工业大学;2011年
5 张慧;基于模型驱动的表格识别的研究[D];山东大学;2011年
6 周培和;PDF文件格式漏洞挖掘系统的研究及实现[D];电子科技大学;2012年
7 杨琳;客户端监控在PDF文档版权保护中的应用研究[D];合肥工业大学;2011年
8 吴自文;插件技术在PDF文档安全保护中的研究与应用[D];合肥工业大学;2011年
9 薛磊;源代码文件转换为语法高亮PDF文件的工具[D];大连理工大学;2012年
10 任林涛;PDF格式中文科技论文的有效信息提取方法及分类研究[D];吉林大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 樊哲高;福昕:打造中国的PDF[N];中国电子报;2011年
2 仇丰刚;采用PDF417技术 有效打击涉牌违法[N];人民公安报·交通安全周刊;2011年
3 本报记者 林侃 卢雅;领舞PDF技术的江西小伙子[N];福建日报;2009年
4 本报记者 边歆;黑客利用PDF漏洞发动攻击[N];网络世界;2010年
5 ;利用Google公开发布PDF文档[N];中国电脑教育报;2009年
6 ;英国国家统计局利用PDF改善信息发布[N];中国信息报;2001年
7 马晓红 本报记者 樊立新;完成“不可能完成”的任务[N];大众科技报;2004年
8 本报记者 王晓明;小表格有大作为[N];中国电脑教育报;2007年
9 ;完成“不可能完成”的任务[N];中国信息报;2004年
10 丽华;借助OpenOffice.org 编辑PDF文档[N];中国电脑教育报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978