收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于模型驱动的表格识别的研究

张慧  
【摘要】:表格识别是当前图像识别领域中的一个重要研究课题,由于信息化的普及和表格数据的大量出现,表单数据自动处理技术已经在很多行业和领域中取得应用。表格图像识别技术不仅可以提取表格结构,与OCR结合还可以对表格数据进行自动处理;通过模板匹配,可以进行证件验证。本文设计了一个表格描述模型,根据模型要求,设计实现了一个表格识别方法,通过该方法能够将表格图像转换成规定格式的模型。在表格模板的基础上,设计实现了一个表格输出和数据提取的系统。 本文分析了几种常见的表格结构的描述方式,通过对比选择了XML作为表格模型的描述语言。根据本文研究的表格特征,提出了一种表格模型。该模型具有很好的复用性,而且对表格结构的描述清晰、简单,利于对表格模板进行二次开发利用。 本文对表格识别的方法进行了分析,一般分为图像预处理和表格特征提取两部分。图像预处理的目的是使表格特征更突出,更容易识别,降低表格特征识别的时间和空间复杂度。根据本文所研究的表格特征,表格预处理可分为图像灰度化、图像二值化、图像的倾斜校正和图像细化四个步骤。经过预处理后的图像,明显分为黑白两种颜色,表格线只有单像素宽,达到了降低表格特征识别时间和空间复杂度的目的。根据模型定义的要求,表格特征识别需要识别出表格的单元格和嵌套表格,为了实现这个目标需要首先提取出表格线。每一种表格特征的识别本文都实现了一个算法,并对算法和最终的结果进行了分析。 在表格特征识别的基础上,在研究过程中还加入了一些逻辑特征的识别。这些逻辑特征识别的加入,进一步提高了表格识别的智能化程度。表格逻辑特征的识别包括了文字的识别、文字特征的识别和单元格逻辑关系的识别。其中单元格之间的逻辑关系的识别对表格图像有一定的特殊要求,需要对不同类型的单元格利用颜色等特征进行区分。 本文通过对表格模型的解析,实现了表格模型与业务数据的结合,大大节省了程序开发的时间。在实际应用中,与OCR技术结合,可以实现业务数据的提取。通过对XML解析方式的分析,结合本文采用的开发平台,选择了DOM4J这种灵活高效的解析方式。在模型生成过程中,提出了一种表格物理结构的描述方式。在具体业务开发时,业务数据通过该物理描述结构与表格模板进行数据交换;本文提出了一种模型解析器的设计方法,通过模型解析器将模板解析成为平台相关的模型,结合具体需求,实现模板的二次开发利用。随着模板的大量出现,本文还提出了一种模板库的管理方式。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘玮;;医学论文写作中的表格设计[J];中山大学学报论丛;2007年10期
2 杨炳华;电算表格设计的一种新尝试[J];林业资源管理;1988年05期
3 卢庆霞;;编辑加工表格时应重视内容的科学性[J];编辑学报;2010年04期
4 邵淑霞;李德荣;;Wed页中不规则表格的实现[J];大庆高等专科学校学报;2002年04期
5 杨惠英,任冬梅;关于用Excel作VB输入模板的实现技术[J];吉林广播电视大学学报;2005年01期
6 黄如福;计算机辅助表格设计及其算法[J];建筑科学;1991年01期
7 姚文连;;经济不景气 表格设计也得节约型[J];电脑迷;2009年10期
8 王昌栋;;科技论文表格的主谓倒置及修正[J];中国科技期刊研究;2008年04期
9 梁李玲,韦江;代检索课题工作及咨询表格设计[J];江西图书馆学刊;2005年01期
10 郭青;李小萍;梁秋野;;医学期刊表格设计编排原则及常见问题[J];编辑学报;2011年04期
11 左晋学;;谈高职院校图书馆期刊订购[J];牡丹江大学学报;2007年04期
12 孙东;郭伟;吴元军;;基于VBA编程的财务数据汇总表格设计[J];科技创新导报;2008年29期
13 顾渊;ORACLE SQL*FORMS的应用[J];电脑开发与应用;1994年02期
14 李贵现;樊银亭;;一种笔式表格组件的设计方法[J];小型微型计算机系统;2011年09期
15 ;惠普保函打印解决方案[J];信息系统工程;2003年07期
16 金永勤;;医学论文中三线表的规范化问题[J];肝胆胰外科杂志;2008年05期
17 韦大文;科技论文中表格设计错误的分析[J];河南大学学报(社会科学版);2002年06期
18 王志刚;戴光华;;Visual Foxpro的Grid应用实例[J];工程地质计算机应用;1999年04期
19 成钢;Excel在工程概预算编审中的应用浅析[J];煤炭科技;2003年03期
20 尤存钎;;基于BS结构的动态办公表格系统的设计与实现[J];计算机时代;2009年05期
中国重要会议论文全文数据库 前10条
1 张志琴;陈吉平;;学报表格规范化问题探讨[A];学报编辑论丛(第八集)[C];1999年
2 常志卫;;医学论文中表格使用的问题分析[A];学报编辑论丛(第十三集)[C];2005年
3 汪玲;周世慧;;医学期刊三线表设计中常见问题例释[A];湖北省科学技术期刊编辑学会2004学术年会论文集[C];2004年
4 何联珠;;对护士长考核的表格设计与应用[A];中华医院管理学会2005年学术会议论文集[C];2006年
5 金永勤;;医学论文中三线表的规范化问题[A];中国高校学术出版文集2008年第1卷——中国高等学校自然科学学报研究会第12次年会论文集[C];2008年
6 钟礼瀑;吴青青;;对合理设计检验信息表格取得准确实验信息的探讨[A];第五次全国中青年检验医学学术会议论文汇编[C];2006年
7 孙玉花;刘文华;张琴;;浅析医学期刊来稿中的主要问题[A];学报编辑论丛(第十五集)[C];2007年
8 海心;;使用Excel求解动态规划问题方法探讨[A];2005年中国机械工程学会年会论文集[C];2005年
9 崔月琴;;如何提高病案质量[A];第五届全国病案管理学术会议论文集[C];1995年
10 刘金妹;;实施整体护理的效果评价[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(下册)[C];2001年
中国硕士学位论文全文数据库 前10条
1 袁圣江;基于.NET的表格组件研究与实现[D];长沙理工大学;2005年
2 吴方健;应用ABC法改进油田钻井板块成本预算管理的研究[D];中国石油大学;2007年
3 刘兵;表格文档图像分析方法研究[D];上海交通大学;2013年
4 吴连波;隧道施工灾害计算机辅助决策系统研究[D];重庆交通大学;2008年
5 邓苗;基于SNMP综合网管平台的MIB与事件机制的设计与实现[D];国防科学技术大学;2006年
6 刘光军;我国建筑企业全面预算管理应用研究[D];四川大学;2007年
7 陈文强;路网规划导向的运输需求调查研究[D];长安大学;2008年
8 姜晓颖;我国药品不良反应定期汇总报告上报的现状及改进措施[D];大连医科大学;2007年
9 杜亚平;电力设备状态检修辅助分析系统[D];西安理工大学;2007年
10 梁青;基于COM构件的软件开发[D];哈尔滨理工大学;2004年
中国重要报纸全文数据库 前10条
1 孤独笑;细品Dreamweaver MX 2004表格设计[N];电脑报;2003年
2 殷建光;“流动人员登记表”透出歧视性思维[N];工人日报;2007年
3 朱国然;关爱转化“较差生”[N];承德日报;2007年
4 黄永祥邹汝刚 记者 李成;委员公开质询 纪委接受监督[N];眉山日报;2008年
5 罗刚君;简单公式筑就强大日历[N];中国电脑教育报;2009年
6 印高乐;台湾医生研发出新型人工关节[N];医药经济报;2002年
7 ;北京丰台地税三分钟办初审手续[N];财会信报;2008年
8 天安;罗伯说:条形码市场有做不完的事[N];中国包装报;2002年
9 高山;清史史表纂修工作会议在京召开[N];光明日报;2006年
10 王旭敏;喜种文化促和谐[N];台州日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978