收藏本站
《内蒙古大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

蒙汉英混排文档图像的文种识别研究

范晔斐  
【摘要】:目前绝大多数的文字识别(OCR)系统,只能识别单一文种的文字,无法同时识别多文种文字。而现有的大量蒙古文文档图像中不仅包含蒙古文,还混有汉文和英文。如果识别时仅使用蒙古文专用的OCR引擎,那么会造成汉文和英文的无法识别,导致识别效果不佳。本文针对这个问题提出了一种解决方法:先对蒙古文文档图像进行文种识别,将原文档图像中的文字按照文种分为蒙古文类、汉文类、英文类,再调用相应文种的OCR引擎识别文字,最终实现对蒙汉英三种文字同时识别的功能。文中阐述了文字提取和文种识别的方法。 文字提取的方法是首先抽取连通域面积和连通域数目特征,采用线性分类器区分文本区域和图像区域;然后运用投影分析和高斯平滑的方法切分列;随后依据连通域外接矩形框之间的位置关系形成文字块;最后使用改进的水滴算法切分文字块。实验结果表明,本文的文字提取方法具有比游程平滑算法和最小生成树法高的提取正确率。 文种识别的过程分为粗分类和细分类两个阶段。在粗分类阶段,选择文字的宽度、高度和主干线特征,使用规则进行分类。细分类包括汉文细分类和英文细分类两个部分,两者都选择文字的轮廓作为特征,使用支持向量机对文字分类。实验结果表明,本文方法对文字的识别正确率达到99.65%
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.43

【参考文献】
中国期刊全文数据库 前10条
1 王凯;侯著荣;王聪丽;;基于交叉验证SVM的网络入侵检测[J];测试技术学报;2010年05期
2 丁晓青;汉字识别研究的回顾[J];电子学报;2002年09期
3 靳简明;王华;丁晓青;;维汉英混排文档识别[J];电子与信息学报;2006年07期
4 王恺;靳简明;史广顺;王庆人;;基于特征点的汉字字体识别研究[J];电子与信息学报;2008年02期
5 常丹华;何耘娴;苗丹;;中英混排文档图像粘连字符分割方法的研究[J];激光与红外;2010年12期
6 伍振军,丁晓青;鲁棒的多体印刷英文识别系统的实现[J];计算机工程与应用;2001年20期
7 刘刚,丁晓青,彭良瑞,刘长松;多知识综合判决的字符切分算法[J];计算机工程与应用;2002年17期
8 曾理,唐远炎,陈廷槐;基于多尺度小波纹理分析的文字种类自动识别[J];计算机学报;2000年07期
9 魏宏喜;高光来;;基于Word Spotting技术的蒙古文古籍图像检索中的特征选择[J];计算机应用;2011年11期
10 王华,丁晓青;一种多字体印刷藏文字符的归一化方法[J];计算机应用研究;2004年06期
中国博士学位论文全文数据库 前2条
1 康牧;图像处理中几个关键算法的研究[D];西安电子科技大学;2009年
2 史思琦;基于轮廓特征的目标识别研究[D];西安电子科技大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 吴德天;杨根兴;;嵌入式平台下英文名片字符识别算法的实现[J];北京机械工业学院学报;2008年04期
2 文炜伍;王洪革;宋晓雪;;计算机汉字识别和静态手写汉字签名鉴定技术综述[J];长春师范学院学报;2012年06期
3 杨玉科;何小海;吴炜;徐锐义;;中文名片识别系统[J];成都信息工程学院学报;2008年01期
4 郑春峰;王永皎;;图书索书号文字识别算法的研究[J];平顶山工学院学报;2008年06期
5 李小平;任恩恩;;异构数据库相似语义属性聚类过程研究[J];铁道科学与工程学报;2012年02期
6 王亚杰;李殿起;付萍;徐心和;;多类特征显微图像的识别[J];东北大学学报;2006年06期
7 高海波;洪文学;樊凤杰;崔建新;;基于雷达图表示原理的英文字符识别方法[J];燕山大学学报;2008年05期
8 禹涛;何勰绯;;OCR组件在智能阅读器的应用[J];电脑知识与技术;2012年14期
9 孔月萍;郭世雄;梁韶军;;一种新的粘连字符图像分割方法[J];电子技术应用;2009年07期
10 赵继印;郑蕊蕊;吴宝春;李敏;;脱机手写体汉字识别综述[J];电子学报;2010年02期
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 丁杰;无限制手写体数字串切分与识别的相关问题研究[D];南京理工大学;2010年
3 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
4 朱雷;古籍手写汉字图像分割算法研究[D];重庆大学;2011年
5 郑华利;彩色地形图的自动识别与矢量化研究[D];南京理工大学;2004年
6 曾迎生;地图图符提取与识别算法研究[D];国防科学技术大学;2003年
7 刘大健;模糊模式识别在模拟驾驶系统中的应用研究[D];浙江大学;2005年
8 高学;基于运动图像的手写汉字识别研究[D];华南理工大学;2003年
9 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
10 章夏芬;中国数字书法检索与作品真伪鉴别的研究[D];浙江大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 赖睿;刘上乾;王炳健;李庆;;一种新的自适应红外图像增强算法[J];半导体光电;2006年06期
2 成曙,阳建红,张振仁,刘朝丰;基于数学形态学的RTR图象边缘检测[J];兵工自动化;2004年05期
3 侯舒娟,马淑芬,吴嗣亮;基于过采样滤波器组的多尺度边缘检测[J];电讯技术;2004年06期
4 傅茂名;基于形态灰度边缘检测算法的一种改进[J];电子科技大学学报;2005年02期
5 黄凯奇,王桥,吴镇扬;基于视觉特性的多尺度彩色图像增强算法[J];电路与系统学报;2003年06期
6 袁丽婷;邱力军;;基于Matlab的X线医学图像增强与直方图处理方法[J];第四军医大学学报;2007年04期
7 丁晓青,郭繁夏;中文OCR技术最新进展[J];电子出版;1995年12期
8 李军;;一种改进的数字图像模糊增强算法[J];电子测量技术;2006年05期
9 丁晓青,吴佑寿;模式识别统一熵理论[J];电子学报;1993年08期
10 何焰兰,苏勇,高永楣;一种自适应小波去噪算法[J];电子学报;2000年10期
中国博士学位论文全文数据库 前2条
1 刘进;不变量特征的构造及在目标识别中的应用[D];华中科技大学;2004年
2 曹健;基于局部特征的图像目标识别技术研究[D];北京理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 赵飞;谢里阳;李佳;;最大投影栅缝法检测文档图像倾斜角[J];计算机应用;2011年06期
2 赵健,田泽,李镐炜,周明全;基于小波的文档图像分割改进算法[J];小型微型计算机系统;2004年10期
3 钟辉,姜小帅,刘辉;文档图像汉字检索方法[J];沈阳建筑大学学报(自然科学版);2005年04期
4 刘婀娜;刘一斐;祁建芳;;基于三维边缘重构的文档图像自动矫正方法[J];计算机应用研究;2007年07期
5 魏宏喜;高光来;;蒙文文档图像的倾斜检测方法[J];内蒙古大学学报(自然科学版);2007年04期
6 张田;王希常;尘昌华;;基于特征的文档图像检索[J];计算机工程;2009年22期
7 尚新萍;吴燕玲;;提高影像文档图像质量的预处理研究[J];科技信息;2009年31期
8 宋涛;刘刚;;一种基于内容的文档图像检索方法[J];郑州大学学报(工学版);2010年01期
9 张田;;一种改进的文档图像倾斜检测算法[J];西华大学学报(自然科学版);2010年01期
10 陈霞;王希常;刘江;;一种鲁棒的文档图像数字水印算法[J];信息技术与信息化;2010年01期
中国重要会议论文全文数据库 前4条
1 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 国伟;刘宇鑫;宗泽;亓文法;;印刷纸介质文档图像中的信息隐藏技术研究[A];颜色科学与技术——2012第二届中国印刷与包装学术会议论文摘要集[C];2012年
3 付旻;高芸;黄祥林;;文档图像分割技术研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 靳从;;规则文档图像噪声处理方法[A];首届信息获取与处理学术会议论文集[C];2003年
中国重要报纸全文数据库 前1条
1 程光;成像技术走向邮政[N];人民邮电;2002年
中国博士学位论文全文数据库 前3条
1 田大增;视觉文档图像识别预处理[D];河北大学;2007年
2 刘建胜;文档图象版面理解的研究[D];重庆大学;2002年
3 张志伟;数学表达式数字化处理中关键技术的研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 张田;基于特征的文档图像检索[D];山东师范大学;2009年
2 姚园;数字化信息卡文档图像预处理系统的设计与核心算法[D];华中科技大学;2004年
3 彭涛;海量文档图像信息的自动提取相关技术研究与实现[D];华中科技大学;2006年
4 赵聪;多镜头文档图像拼接技术研究[D];中南大学;2012年
5 杨晓娟;数字图书馆—文档图像的检索[D];沈阳理工大学;2009年
6 郝永;视觉文档图像光学失真的校正[D];河北大学;2008年
7 张艳;图像拼接技术在文档图像扭曲识别中的应用与研究[D];北方工业大学;2011年
8 高鸿;文档图像拼接技术研究[D];中南大学;2011年
9 林杰;文档图像的层分割研究[D];重庆大学;2004年
10 胡奇;文档图像拼接技术的研究[D];哈尔滨工程大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026