收藏本站
《河北大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的汉字识别后处理研究

彭涛  
【摘要】: 随着计算机和网络技术的飞速发展,需要将大量现实生活中各种介质上的文本数字化,为了提高效率,减轻人的负担,出现了OCR技术——即光学字符识别。近年来,汉字OCR研究已经取得了很大的进步,许多商品化的识别系统成功的走向市场。但是,汉字结构复杂且变化性大的特点往往使单字识别率受到一定的限制。只依靠单纯的单字符识别,识别率已经很难得到进一步的提高。需要在单字符识别基础上,利用语言学知识和文本的上下文相关信息进行后处理。 本文介绍了汉字识别后处理的研究意义和后处理的一些方法,并采用基于统计的后处理方法对单字符识别结果进行了后处理。通过对2000年全年的《人民日报》文本(约1930万字)进行二元字字同现统计,得到汉语文本中字与字之间的概率制约关系。根据Markov语言模型,将同现概率这种文本上下文相关信息应用到汉字识别后处理中。对单字符识别得到的结果进行二次加工,在一定程度上提高了整个系统的识别正确率。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP391.4

【参考文献】
中国期刊全文数据库 前7条
1 关毅,张凯,付国宏;基于统计的计算语言模型[J];计算机应用研究;1999年06期
2 张德喜,马少平,朱绍文,金奕江;基于统计与神经元方法相结合的手写体相似字识别[J];中文信息学报;1999年03期
3 李元祥,刘长松,丁晓青;一种利用校对信息的汉字识别自适应后处理方法[J];中文信息学报;2001年01期
4 李元祥,丁晓青,刘长松;一种基于噪声信道模型的汉字识别后处理新方法[J];清华大学学报(自然科学版);2001年01期
5 李宏东,叶秀清,顾伟康,路浩如,X.S.Ma;一种带有虚节点的HMM汉字识别后处理算法[J];信号处理;1999年03期
6 刘瑞正,赵海兰;一个基于综合匹配的汉字识别后处理系统[J];小型微型计算机系统;1998年05期
7 秦姣华,向旭宇;HMM在汉字识别技术中的应用[J];现代计算机;2000年08期
【共引文献】
中国期刊全文数据库 前10条
1 孙立民,狄红卫,余英林;基于子块特征及其相关模糊特征的手写体汉字识别方法[J];通信学报;1999年12期
2 陶晓鹏,胡运发;基于邻接矩阵全文索引模型的文本压缩技术[J];中文信息学报;2004年01期
3 孙立民,张宗念,余英林,马文田;有监督竞争学习神经网络模型在手写体汉字识别中的应用[J];工程图学学报;1998年04期
4 丁晓青;汉字识别研究的回顾[J];电子学报;2002年09期
5 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
6 岳晓峰;焦圣喜;韩立强;李洪洲;;模式识别中的光字符识别技术及应用综述[J];河北工业科技;2006年05期
7 李元祥,丁晓青,吴佑寿;一种基于字词结合的汉字识别上下文处理新方法[J];计算机研究与发展;2002年07期
8 徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期
9 陈臻刚,丁晓青,刘长松,彭良瑞;文档识别中误切分字符拒识问题的研究[J];计算机工程与应用;2002年17期
10 封筠,王彦芳,杨扬,王小平,刘永军;SVM多值分类器在脱机手写体相似汉字识别中的应用[J];计算机工程与应用;2004年27期
中国重要会议论文全文数据库 前4条
1 曹鹤;裴明涛;贾云得;;一种基于上下文的手写体汉字识别候选集选取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 徐欣;徐盛林;;一种两级加权神经网络控制系统设计及应用[A];2004年生命系统建模仿真国际会议暨第一届全国生命系统建模仿真学术会议论文集[C];2004年
3 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
4 张洪刚;徐蔚然;刘刚;郭军;;一种高可信度的支票日期识别方法[A];2001年中国智能自动化会议论文集(上册)[C];2001年
中国博士学位论文全文数据库 前5条
1 冯长建;HMM动态模式识别理论、方法以及在旋转机械故障诊断中的应用[D];浙江大学;2002年
2 高学;基于运动图像的手写汉字识别研究[D];华南理工大学;2003年
3 陈光;特定领域OCR系统的精度与速度问题研究[D];北京邮电大学;2007年
4 马瑞;非限制手写字符分割中相关技术与算法的研究[D];南京理工大学;2007年
5 李峰;英文科技文档中数学公式的定位、识别与重建[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 叶锋;基于神经网络的综合集成车牌识别技术的研究及其应用[D];合肥工业大学;2002年
2 盛军;基于小波的图像分析及其在车牌识别中的应用[D];合肥工业大学;2002年
3 鲍胜利;基于多算法集成和神经网络的汉字识别系统的研究[D];四川大学;2002年
4 姜滔;基于模式识别的图像处理及其在车牌识别中的应用[D];合肥工业大学;2002年
5 王志红;小波和神经网络模式识别技术及其在车牌识别中的应用[D];合肥工业大学;2003年
6 荆涛;汽车牌照识别系统的研究与初步实现[D];中国人民解放军国防科学技术大学;2002年
7 刘大宇;汉字识别方法研究及其在车牌识别系统中的应用[D];四川大学;2003年
8 后俊;车牌图像分割与智能字符识别方法的研究[D];合肥工业大学;2004年
9 王小芳;基于几何特征点的身份证号码识别以及在二代身份证检证系统中的应用[D];吉林大学;2004年
10 龙丽君;网络内容监管系统中基于局部信息的语义倾向性识别算法[D];南京理工大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 丁晓青;汉字识别研究的回顾[J];电子学报;2002年09期
2 李元祥,丁晓青,吴佑寿;一种基于字词结合的汉字识别上下文处理新方法[J];计算机研究与发展;2002年07期
3 黄春艳,杨国胜,侯艳丽;基于颜色直方图和空间信息融合的图像分割算法[J];计算机工程与应用;2005年03期
4 任靖,李春平;最小距离分类器的改进算法——加权最小距离分类器[J];计算机应用;2005年05期
5 陈又新,刘长松,丁晓青;复杂彩色文本图像中字符的提取[J];中文信息学报;2003年05期
6 李元祥,丁晓青,刘长松;一种基于噪声信道模型的汉字识别后处理新方法[J];清华大学学报(自然科学版);2001年01期
7 徐涛,胡振宁,骆明;一个基于SDM改进模型的手写体汉字联想记忆系统的实现[J];微电子学与计算机;2000年01期
8 靳简明,丁晓青,彭良瑞,王华;印刷维吾尔文本切割[J];中文信息学报;2005年05期
9 王华,丁晓青,哈力木拉提;多字体多字号印刷维吾尔文字符识别[J];清华大学学报(自然科学版);2004年07期
10 金连文,徐秉铮;手写体汉字识别中的一种新的特征提取方法——弹性网格方向分解特征[J];电路与系统学报;1997年03期
中国重要会议论文全文数据库 前3条
1 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
2 索宏彬;李明;吕萍;颜永红;;一种基于带语言模型并行音节解码器的语种识别系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 徐蔚然;张洪刚;郭军;;基于语法、语义信息的银行票据二值化算法的构造[A];2001年中国智能自动化会议论文集(下册)[C];2001年
中国博士学位论文全文数据库 前3条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
3 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
中国硕士学位论文全文数据库 前7条
1 刘伟;脱机手写体汉字识别的特征提取研究与实现[D];湖南大学;2007年
2 薛玉利;基于Gabor变换的特征提取及其应用[D];山东大学;2007年
3 万芳;联机手写维吾尔文字识别技术的研究与实现[D];新疆大学;2007年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 宫淑兰;手写数字识别的研究与应用[D];山东大学;2006年
6 姚华静;基于颜色和纹理特征的图像检索技术研究[D];河海大学;2007年
7 周家玮;基于图像处理的数字字符实时识别系统的设计[D];浙江大学;2007年
【二级参考文献】
中国期刊全文数据库 前3条
1 关毅,王晓龙,张凯;基于转移的音字转换纠错规则获取技术[J];计算机研究与发展;1999年03期
2 张引,潘云鹤;工程图纸自动输入字符识别的二维隐性马尔可夫模型方法[J];计算机辅助设计与图形学学报;1999年05期
3 苗兰芳,张森,周昌乐;基于N联字的汉字识别后处理研究[J];中文信息学报;1994年02期
【相似文献】
中国期刊全文数据库 前10条
1 ;汉语信息处理的三大技术[J];电脑知识与技术;1994年01期
2 范承亚,张素智,袁爱萍;汉字识别的预处理技术[J];郑州轻工业学院学报(自然科学版);1998年01期
3 丁晓青,刘长松;汉字识别的新突破和新进展──THOCR-97综合集成汉字识别系统和THOCR-2000自动电子出版系统研制成功[J];中国信息导报;1999年12期
4 张德喜,赵秋雨;神经-模糊技术在相似汉字识别中的应用[J];许昌学院学报;2005年02期
5 胡予濮;二指标隐马尔可夫过程及其在汉字识别中的应用[J];电子学报;1992年01期
6 张彩录,郭宝兰,张宇桐,韩勇,张宇铮;交替运用两种信源模型的汉字识别法[J];自动化学报;1994年01期
7 郭宝兰,张彩录,马颖丽,李素琴;可回溯点跟踪包含配选法印刷汉字识别[J];中国科学A辑;1989年05期
8 ;汉字识别技术的最新进展——清华文通THOCR-97综合集成汉字识别系统研制成功[J];电脑编程技巧与维护;1997年08期
9 刘宏申;用于研究汉字识别的软件平台[J];微机发展;2000年01期
10 韩燮,张永梅,刘幼立;汉字识别的方法及Rosen细化算法的改进[J];华北工学院学报;1997年01期
中国重要会议论文全文数据库 前10条
1 金奕江;马少平;;采用“否定概率和”合成两类判别的汉字识别方法[A];第八届全国汉字识别学术会议论文集[C];2002年
2 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 陆庆杭;张彬;盛立东;;基于PCI总线下的汉字识别加速硬件卡的实现[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
4 黎红;陈烜之;;汉字识别中的部件加工:错觉性结合实验的证据[A];第八届全国心理学学术会议文摘选集[C];1997年
5 刘昌平;;汉字识别技术现状与展望[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 邹寿颐;吴望名;;汉字识别的图形分析方法[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
7 崔怀林;;一种手写汉字识别的笔划直接抽取算法[A];1999年中国智能自动化学术会议论文集(上册)[C];1999年
8 高学;金连文;尹俊勋;;基于笔划密度的弹性网格特征提取方法[A];2001年中国智能自动化会议论文集(上册)[C];2001年
9 管益杰;方富熹;;单字词的获得年龄对小学生汉字识别的影响[A];第九届全国心理学学术会议文摘选集[C];2001年
10 应宏微;;基于分形维数特征的车牌汉字识别[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国重要报纸全文数据库 前10条
1 ;汉字识别的里程碑[N];中国计算机报;2000年
2 王立群;教电脑识中文[N];中国计算机报;2005年
3 本报记者 朱烨洋;刘迎建 走科技创新之路[N];中国新闻出版报;2010年
4 本报记者 顾雪林;梦想:让计算机具有人类的感知能力[N];中国教育报;2002年
5 李典;汉王科技刘迎建:在电纸书的肩膀上眺望未来[N];经理日报;2009年
6 记者 嵩文;OCR打出中国牌[N];计算机世界;2004年
7 柯文;二十步变一步怎么可能呢?[N];科技日报;2002年
8 本报记者 向杰;刘迎建:昂首阔步三十年[N];科技日报;2008年
9 耀翠;OCR让银行搭上“动车组”[N];中国高新技术产业导报;2007年
10 申明;专注的力量[N];科技日报;2007年
中国博士学位论文全文数据库 前8条
1 陆燕玉;视觉假体中人工视觉最小信息需求及其优化研究[D];上海交通大学;2012年
2 苏统华;脱机中文手写识别—从孤立汉字到真实文本[D];哈尔滨工业大学;2008年
3 鲁斌;广义智能系统柔性超拓扑空间模型研究与应用[D];西北工业大学;2003年
4 林存真;汉字字体识别与公共空间应用性研究[D];中央美术学院;2012年
5 林存真;汉字字体识别及其在公共空间中的应用研究[D];中央美术学院;2012年
6 王建勤;外国学生汉字构形意识发展的模拟研究[D];北京语言大学;2005年
7 贡京京;面孔与汉字认知加工机制中的倒置效应—行为学及ERP研究[D];第四军医大学;2008年
8 李宁;认知发展:汉字输入中信息代码加工的理论与实践[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 彭涛;基于统计的汉字识别后处理研究[D];河北大学;2003年
2 余成武;汉字识别的正字法加工方式[D];杭州师范大学;2011年
3 张晓戍;不同实验任务下东南亚留学生汉字识别中形音义的激活[D];福建师范大学;2012年
4 张臻;纳西族儿童汉字识别中的形、音、义激活[D];云南师范大学;2011年
5 万莹;激光再现汉字识别中关键技术的研究[D];华中科技大学;2012年
6 曹琎;自然场景中汉字识别关键技术研究[D];西安电子科技大学;2010年
7 叶锋;简化特征值的汉字识别研究[D];北方工业大学;2012年
8 蔡治;视角对汉字识别影响的研究[D];西南师范大学;2003年
9 刘煜星;基于MapReduce的汉字识别的研究与实现[D];华南理工大学;2011年
10 李鑫;基于神经网络分类器的汉字识别系统研究[D];辽宁工程技术大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026