收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

印刷体中文文档中表格和汉字的识别研究

于伯峰  
【摘要】:随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。 本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上的完善和补充。主要工作如下: 首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。 其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了对表格文档图像的倾斜角检测及校正。对于角度较小(-5°-5°)的情况,运用上述方法能达到快速倾斜校正的目的,取得更好的效果。 然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验得出本文采用的方法对表格的检测和提取的效果比较理想。 最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字模板字库。 本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对科技的发展和传播有深远意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈松泉,陈晓媛;汉字编码规范化应具有中国特色[J];中文信息;1996年03期
2 刘彦琴;;微机汉字字段处理的快速方法[J];交通与计算机;1987年04期
3 谢克中,孙靖夷;汉字发生系统设计与汉字图象数据压缩[J];计算机学报;1984年06期
4 关英春;徐悦;;关于汉字编码模式及计算机辅助编码的探讨[J];计算机研究与发展;1985年12期
5 段利华;汉字编码的内在质量和单码率——“动态重码率”容易产生错误导向[J];中文信息;1996年05期
6 樊建平;智能汉字字形设计技术及一个试验性系统ICCDS[J];中文信息学报;1990年03期
7 陈玲,陈学德,郑重,青木由直;一个手写印刷体汉字识别实验系统[J];中文信息学报;1991年04期
8 张孝存;;电脑输入汉字该选用哪支“笔”?[J];中文信息;1996年06期
9 刘恒昌;;对于中、日文图书书名目录组织方法的探讨[J];图书情报工作;1985年06期
10 李昭智,卞葵,于长云,严隽佩;面向对象小汉字库管理系统的需求分析[J];天津理工学院学报;1995年04期
11 沙树贤;余葭生;;关于《汉语主题词表》中主表的排列问题[J];图书情报工作;1981年06期
12 李先国;梁涌;;一种高效的适用于字词检索的数据结构[J];微电子学与计算机;2006年12期
13 谷文祥;关于计算机汉字信息输入处理的一个新模型[J];计算机研究与发展;1995年07期
14 马俊莉,莫玉龙,王明祥;基于有效鉴别特征抽取的有限汉字集识别[J];上海大学学报(自然科学版);2002年01期
15 朱德全;汉字识别的CHASRE/30软件[J];电子学报;1980年03期
16 钱培德;计算机汉字I/O处理的数学模型[J];中文信息学报;1992年02期
17 章森;汉字输入方法研究中的几个问题[J];中文信息;1996年01期
18 张孝存;向娃娃们提供优秀的中文输入法 迎接汉语进入计算机的新纪元[J];中文信息;1996年01期
19 蔡国廉;杨文瑜;陈佩芳;;用笔划密度预分类自动识别汉字[J];电子技术;1981年09期
20 吴新瞻;手写汉字联机识别——原理、方法与实践[J];中文信息学报;1986年01期
中国重要会议论文全文数据库 前7条
1 吴悠;黄华军;;一种基于字频的文本数字水印算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 王晓明;王敏;;国际基本子集的诞生及其构成概况[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
3 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
4 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 申文明;刘连芳;黄家裕;温家凯;;基于概率模型的汉越人名音译[A];广西计算机学会2010年学术年会论文集[C];2010年
6 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
7 刘春华;;统一汉字编码路线图[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
中国博士学位论文全文数据库 前5条
1 王迈;语言形式化原理[D];上海外国语大学;2011年
2 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
3 盛译元;美国高校汉语教材研究[D];中央民族大学;2013年
4 钟如雄;汉字转注系统研究[D];四川大学;2004年
5 伦玉敏;花山庙女神与“女书”文化[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 朱佳;有关日语中和制汉字的研究[D];吉林大学;2006年
2 洪一波;液晶屏有限汉字集的特征提取与识别技术研究[D];电子科技大学;2011年
3 颜海燕;汉代文字教育研究[D];湖南科技大学;2012年
4 罗灿;3000字与语素、词的关系及其语法、语义类[D];暨南大学;2013年
5 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
6 徐笑含;周边视觉对于汉字的知觉学习[D];华东师范大学;2012年
7 何文劼;三维示波器人机交互及输入法设计[D];电子科技大学;2013年
8 罗纲;基于汉字数学表达式的文本数字水印方法研究[D];湖南大学;2005年
9 赵漫兰;建构主义及其在《汉字》教材中的体现[D];浙江大学;2011年
10 白雪英子;盲人阅读器的研究与开发[D];大连理工大学;2013年
中国重要报纸全文数据库 前3条
1 刘春华;汉字编码和输入法的应用统筹思考[N];光明日报;2007年
2 李国敏;中国首个具有自主知识产权二维条码码制标准新鲜出炉[N];科技日报;2007年
3 李东华;张之路:写“有意思”和“有意义”的书[N];文艺报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978