收藏本站
《电子科技大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中英文混排文字识别系统的设计与实现

李钊  
【摘要】: 随着国际间技术交流的发展,多语言文档越来越普遍,尤其是在高技术领域,通常都有大量的外文术语。在我国,最为常见的是中英文混排文档。多语言文档的出现也对OCR技术提出了新的要求,与单一文档识别不同的是,混排文档中由于不同语言特点的差别,要求对文档中出现的不同语言加以区分,采用不同的识别方法进行识别。 本文在研究当前光学字符识别(OCR)系统及相关识别技术的基础上,设计开发了一套印刷体文字识别系统。主要工作如下: 其一,针对现有字符切分方法在复杂版式环境下不能正确处理图标和花边,在中英文混排环境以及不同字号文字混排情况下不能准确的进行切分等问题,提出了一种基于汉字周期及识别反馈的混排文字切分方法。该方法中采用了基于连通区域合并的行切分算法更为准确的完成了文本图像的行切分,采用了基于字符间距周期的中文字符分离算法,实现了对连通区域类型的判定,最后采用了基于识别的汉字部件合并算法,完成了对左右结构汉字的连通区域合并。实验表明,此方法的字符切分准确率优于传统的基于投影的行字切分算法。 其二,设计并实现了一个通用的汉字识别软件框架,其设计充分考虑了用户使用的需求以及软件更新和维护的要求,提供了一个可移植的、可伸缩的灵活的文字识别软件平台。基于此平台,用户可以根据输入图像的特点进行动态的算法定制,改变其执行轨迹,提高识别效率;用户也可以对同一图像采用不同的算法来进行识别,从而实现对算法性能的比较。而对于软件维护人员来讲,算法的更新和维护工作在此平台下也变的更为简单和方便,只需进行配置文件的修改和算法包的拷贝和替换工作 其三,本文对文字识别过程中一系列关键步骤进行了深入的研究,对其各种实现算法进行较为深入的分析和比较,给出了各自的优缺点和适用场景。 总之,利用以上算法得到的印刷体汉字识别系统的平均识别率达到96%以上。每百字的平均识别时间为6秒。对中英文混排文本图像中英文及其他符号的平均识别率达到85%以上。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.43

手机知网App
【引证文献】
中国期刊全文数据库 前3条
1 杨振宇;;中英文混合字符串切分技术[J];电脑知识与技术;2011年14期
2 郭皎;鄢沛;;基于文档图像的贝叶斯重建算法仿真研究[J];计算机仿真;2011年09期
3 孙勇;金新生;;基于轴对称窗口文字图像检测快速算法研究[J];计算机仿真;2012年04期
中国硕士学位论文全文数据库 前4条
1 刘聚宁;印刷体汉字识别系统研究与实现[D];大连理工大学;2011年
2 房婧婧;基于不可见文本水印的纸质文档泄密源头管理系统的设计与实现[D];北京邮电大学;2011年
3 党兴;复杂的中文文档图像版面分析研究[D];苏州大学;2010年
4 张凤;街景影像的文字识别[D];北京建筑工程学院;2012年
【参考文献】
中国期刊全文数据库 前10条
1 叶芗芸,戚飞虎,朱国霞;一种多级分类器集成的字符识别方法[J];电子学报;1998年11期
2 荆涛,王仲;光学字符识别技术与展望[J];计算机工程;2003年02期
3 陈烨,唐光荣;工业绣花软件中的字符变形算法[J];计算机工程;2004年05期
4 李庆峰;付忠良;刘琴;;一种高效的倾斜图像校正方法[J];计算机工程;2006年21期
5 征荆,丁晓青,吴佑寿;基于最小代价的多分类器动态集成[J];计算机学报;1999年02期
6 孙楠;刘志文;;一种改进的中文文档图像倾斜检测方法[J];计算机仿真;2006年09期
7 吕亚军;陈继荣;鹿晓亮;;基于内容的文档图像倾斜校正[J];计算机仿真;2006年12期
8 张文国;“汉王”多文种手写印刷体字符识别系统简介[J];中国科技产业;1997年02期
9 肖旭红,戴汝为;一种识别手写汉字的多分类器集成方法[J];自动化学报;1997年05期
10 林晓帆;丁晓青;吴佑寿;;独立分类器集成理论及其在字符识别中的应用[J];模式识别与人工智能;1998年04期
中国硕士学位论文全文数据库 前1条
1 王彬;通讯终端上名片识别系统的实现[D];武汉理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 周元一;王建平;;汉字多属性认知特征提取研究及应用[J];安徽工程科技学院学报(自然科学版);2006年02期
2 叶志伟;张金平;赖旭东;;基于粒子群算法的最大交叉熵的图像分割方法[J];安徽农业科学;2007年23期
3 吴一全;吴加明;占必超;;一种可有效分割小目标图像的阈值选取方法[J];兵工学报;2011年04期
4 顾洋,王庆林,徐立新;基于Wiener滤波,K-L变换和BP网络的数字识别[J];北京理工大学学报;2002年01期
5 刘峡壁,贾云得;用于手写体汉字识别的汉字结构模型[J];北京理工大学学报;2003年03期
6 余先川,姚力,叶青,张卫华,陈政光;多源地学信息的自动综合研究综述[J];北京师范大学学报(自然科学版);2002年01期
7 高慧萍;吴炜;杨晓敏;何小海;;基于Gabor变换的嵌入式气表自动识别系统[J];成都信息工程学院学报;2008年01期
8 张媛;蔡利栋;;一种去除文本图像椒盐噪声的方法[J];长春理工大学学报(自然科学版);2010年02期
9 刘建胜,汪同庆,王贵新,居琰,彭健;接触式图像传感器应用于表格文档信息处理[J];传感器技术;2002年05期
10 田娟;郑郁正;;模板匹配技术在图像识别中的应用[J];传感器与微系统;2008年01期
中国重要会议论文全文数据库 前6条
1 张媛;蔡利栋;;一种去除文本图像椒盐噪声的方法[A];图像图形技术研究与应用(2010)[C];2010年
2 苗华;陈方涵;霍富荣;陈宇;王文生;;提高水上目标识别能力的方法研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
3 朱学芳;邹文豪;王栾井;;对字体识别中Gabor滤波器参数的实验研究[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
4 种锋;赵景秀;李兴华;李波;;一种有效的脱机手写汉字识别新方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 李小坚;蒋薇;;机器人远程控制的研究与应用[A];2007年足球机器人大会论文集[C];2007年
6 Haitao Yu;Jianyi Guo;Zhengtao Yu;Yantuan Xian;Peng Chen;;The Design of Digit Recognition Teaching Experiment Based on BP Neural Network[A];第25届中国控制与决策会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
2 罗彬;基于MMOI方法的电信客户流失预测与挽留研究[D];电子科技大学;2010年
3 任明艺;时空联合的视频运动目标分割技术研究[D];电子科技大学;2010年
4 王彦春;基于过渡区的图像分割技术研究[D];大连海事大学;2011年
5 孙越泓;基于粒子群优化算法的图像分割研究[D];南京理工大学;2010年
6 陈琪;SAR图像港口目标提取方法研究[D];国防科学技术大学;2011年
7 戚利勇;黄瓜采摘机器人视觉关键技术及系统研究[D];浙江工业大学;2011年
8 片兆宇;图像分割若干问题的研究与应用[D];东北大学;2009年
9 张习文;基于单义域邻接图的扫描工程图样自组织智能识别理论与技术研究[D];大连理工大学;2000年
10 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
中国硕士学位论文全文数据库 前10条
1 代宏伟;布里渊散射水下探测目标的自动识别[D];南昌航空大学;2010年
2 狄俊;基于图像处理的印刷体数字识别技术研究[D];昆明理工大学;2010年
3 冉平;机场安防视频目标跟踪算法研究设计实现[D];电子科技大学;2010年
4 陈波;基于OCR技术的飞机定检数据收集系统设计[D];电子科技大学;2010年
5 王明黔;口令认证系统的安全性研究与实现[D];昆明理工大学;2009年
6 衣燕;面向对象的昆明滇池子流域高分辨率遥感影像地物信息提取[D];昆明理工大学;2009年
7 莫平杰;基于HHT方法的机械系统模态参数识别[D];浙江大学;2011年
8 马小燕;车辆牌照智能识别若干关键技术的研究[D];西安电子科技大学;2011年
9 王依才;人脸识别中光照问题的研究[D];山东师范大学;2011年
10 孟倩;基于图文分割的文档图像数字水印算法研究[D];山东师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 刘峡壁,贾云得;用于手写体汉字识别的汉字结构模型[J];北京理工大学学报;2003年03期
2 刘立波;基于数学形态学的二值图象细化算法[J];湖南文理学院学报(自然科学版);2004年02期
3 罗志聪;孙奇燕;;CRC-16算法与FPGA实现[J];四川兵工学报;2010年05期
4 王忠丰;;用小波变换和数学形态学算法研究文本图像去噪[J];测绘与空间地理信息;2010年03期
5 张世辉,孔令富;汉字识别及现状分析[J];燕山大学学报;2003年04期
6 李德仁;;移动测量技术及其应用[J];地理空间信息;2006年04期
7 樊昀,王润生;从图像中提取文字[J];国防科技大学学报;2002年01期
8 刘宏申;击中击不中变换在笔画细化中的应用[J];安徽工业大学学报(自然科学版);2002年03期
9 彭旭俊,张桂林;基于Gibbs模型的提高图像分辨率方法[J];红外与激光工程;2003年06期
10 吕捷,张天序,张必银;MPI并行计算在图像处理方面的应用[J];红外与激光工程;2004年05期
中国重要会议论文全文数据库 前1条
1 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
中国博士学位论文全文数据库 前4条
1 刘建胜;文档图象版面理解的研究[D];重庆大学;2002年
2 王正群;手写体汉字识别研究[D];南京理工大学;2001年
3 史治平;Turbo码编译码方法及RS-Turbo级联码性能的研究[D];西南交通大学;2004年
4 靳从;中文版面分析关键技术的研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 付磊;复杂背景下彩色图像中的文字识别[D];吉林大学;2011年
2 王志红;小波和神经网络模式识别技术及其在车牌识别中的应用[D];合肥工业大学;2003年
3 张志彬;中文版面分析的研究[D];河北大学;2002年
4 后俊;车牌图像分割与智能字符识别方法的研究[D];合肥工业大学;2004年
5 安艳辉;中英文混排字符切分方法研究[D];河北大学;2004年
6 李艳玲;文本图像页面分割和分类技术的研究[D];苏州大学;2004年
7 丁慧东;脱机手写体汉字识别研究[D];东北师范大学;2005年
8 梁涌;印刷体汉字识别系统的研究与实现[D];西北工业大学;2006年
9 黄冉;汉字图像识别机研究[D];合肥工业大学;2006年
10 付立波;复杂背景图像中的叠加文字提取技术研究[D];中国科学院研究生院(计算技术研究所);2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 万金娥;袁保社;谷朝;米尔沙力江·沙吾提;;基于字符归一化双投影互相关性匹配识别算法[J];计算机应用;2013年03期
【二级参考文献】
中国期刊全文数据库 前10条
1 许捍卫;几种不同的图形变换分析[J];测绘通报;2000年02期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 张青,尹俊勋;小波变换在手写体汉字识别中的应用[J];电路与系统学报;1996年03期
4 金连文,徐秉铮;手写体汉字识别中的一种新的特征提取方法——弹性网格方向分解特征[J];电路与系统学报;1997年03期
5 赵跃龙,金先级,张江陵;基于神经网络的手写体数字识别系统的研究[J];电子计算机外部设备;1994年02期
6 叶芗芸,戚飞虎,尹虎君;一种具有选择注意特性的模板匹配网络模型[J];电子学报;1998年08期
7 陈力,丁晓青;基于小波特征的单字符汉字字体识别[J];电子学报;2004年02期
8 郭军,马跃,盛立东,钟义信;发展中的文字识别理论与技术[J];电子学报;1995年10期
9 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
10 许晓斌,林碧琴,傅秋良,袁保宗;用于连续语音识别的词汇搜索算法[J];北方交通大学学报;1998年06期
【相似文献】
中国期刊全文数据库 前10条
1 张恒博;欧宗瑛;;一种基于颜色基元共生矩阵的图像检索方法[J];计算机工程;2007年14期
2 杨玲;毛以芳;吴天爱;;基于弹性网格和方向线素特征的脱机手写汉字识别[J];辽宁省交通高等专科学校学报;2008年01期
3 唐毅;郑丽敏;任发政;朱虹;林喆;;基于几何特征的图像感兴趣区域的自动定位研究[J];计算机工程;2007年01期
4 张世辉,孔令富;汉字识别及现状分析[J];燕山大学学报;2003年04期
5 于玲;张健;牛芳琳;;利用彩色空间肤色模型实现快速人脸检测[J];电脑知识与技术(学术交流);2007年19期
6 陈俊杰;杜雅娟;李海芳;;中国画的特征提取及分类[J];计算机工程与应用;2008年15期
7 谢志鹏,陈锻生;基于肤色与结构特征的人脸检测与跟踪[J];计算机工程与设计;2005年11期
8 陈蓉;邓洪波;金连文;;一种基于局部Gabor滤波器组的手写体汉字识别方法[J];计算机应用;2007年05期
9 乔维维;秦小文;陆静逸;;印刷电路板图像模式识别研究[J];电子测试;2011年07期
10 白宝兴;管道内表面质量检测系统设计[J];中国图象图形学报;1998年06期
中国重要会议论文全文数据库 前10条
1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
4 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
5 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
6 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
7 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
8 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年
9 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 范小骞;李福平;张立毅;;软件无线电中调制信号识别技术的研究[A];2005中国通信集成电路技术与应用研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 彭保林 郑优军;“扫”进美丽[N];电脑报;2002年
3 许建伟任向阳 朱飞骏;网点半自动化服务系统有待开发[N];金融时报;2008年
4 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
5 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
6 李晓力;清华文通领先科技[N];中国高新技术产业导报;2000年
7 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
8 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 李钊;中英文混排文字识别系统的设计与实现[D];电子科技大学;2007年
2 梁涌;印刷体汉字识别系统的研究与实现[D];西北工业大学;2006年
3 杨玲;脱机手写体汉字识别研究[D];西华大学;2008年
4 刘畅;基于细化处理的脱机手写汉字识别研究[D];天津师范大学;2009年
5 刘云飞;脱机手写体汉字识别中细化、特征提取和相似字识别算法研究[D];湖南大学;2006年
6 刘中合;基于计算机视觉的玉米种子特征提取及应用研究[D];山东农业大学;2007年
7 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
8 唐方坤;基于仿生模式识别和多权值神经元网络的脱机手写汉字识别研究[D];四川大学;2004年
9 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
10 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026