收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

脱机中文手写识别—从孤立汉字到真实文本

苏统华  
【摘要】: 鉴于巨大的应用潜力和附加的特别难度,脱机手写汉字识别吸引了大批的研究者。近三十年的研究,主要集中在工笔手写汉字识别方面。产出的成果囊括了手写矫形、特征提取、分类器设计以及语言后处理等各个方面,进入手写文本时代的条件基本成熟。本文旨在建立脱机中文手写文本识别的基本框架,涵盖了从基础数据到评价体系,再从改进的方法到全新研究策略等一系列内容。首先构建了能够支撑中文手写文本研究任务的基础数据,HIT-MW库;并在理解问题的过程中,定义了评价字符切分和识别算法的度量准则。然后分别从切分策略和无切分策略两条不同路径开展手写文本识别方法的研究。最后,在证实切分策略和无切分策略存在明显互补性的基础上,提出基于双策略的组合系统。 本文分析了手写汉字识别的未来发展趋势并给出研究的逻辑结构。首先以识别对象的升级为主线,系统总结了文字识别研究的发展历史。通过分析发展历史,并结合汉字识别研究在手写库建设和识别策略方面的研究现状,指出中文手写文本识别将是未来的研究重心。这将进入一个新的时代—“手写文本时代”。新生时代是在手写单字时代基础上的进一步发展,所以,随后评述了手写孤立汉字识别领域在手写矫形、特征提取、分类器设计以及语言后处理等各个方面的重要研究成果。 本文从全新角度构建了HIT-MW库。HIT-MW库是国际上首个文本级别的中文手写库,它的收集成功昭示着手写文本时代的开端。它的抄写文本来自人民日报语料库,涵盖了约800万字语料的99.33%用字。书写者经过精心确定,得到了与实际分布基本吻合的统计数据。经过系统的采样策略和缜密的过程控制,HIT-MW库不仅包含歪斜、交叠和粘连的文本行,还有抄写错误、文字涂改等真实手写现象。大量的支撑证据表明,这些基础数据可以视为全体中文手写文本的代表子集;其上的识别结果,具有统计意义。目前,该库已为十多家科研机构采用。 本文不仅定义了文本研究的评价准则,还从切分角度进行了方法研究。首先建立了文本切分和识别的基本评价准则。为评价文本的识别优劣,定义了识别正确率和识别准确率。两种准则可以有效刻画系统在删除错误、插入错误和替换错误上的平衡能力。为了评价不同字符切分方法,定义了切分正确率、切分精确率和切分偏差率等准则。综合应用这三种准则,可以发现切分方法在数字、标点和汉字等不同字符类型上的切分能力以及在过切分和弱切分上的偏向性。其次开展了基于切分策略的真实文本识别研究并提供了两个重要建议。第一,在设计新算法时,如果其支持证据仅依据于一种手写矫形配置上表现出的优势,那么其可信性可能并不成立;理想的方案是比较待评价新、旧系统各自最优手写矫形配置上的结果。第二,MQDF分类器需要改进,以加入先验概率信息,进一步的分析显示,采用大规模语料估计的先验信息比直接从训练集估计的先验更具稳定性。 本文提出基于无切分策略的真实中文手写文本识别方法。该方法在训练时直接采用手写行,不需要对字符位置进行标记;识别时无需字符切分阶段。采用同类型特征的切分系统和无切分系统间的对比实验,证实了无切分策略的可行性和巨大潜力。在这一研究框架下,针对四平面交叉特征的弱点,提出增强的四平面交叉特征(en-FPF)。与以前的方向平面不同,en-FPF的方向平面包含了重构原始图像的全部重要信息。实验表明,en-FPF在数字、标点和汉字上均有更好的识别性能,也是目前无切分框架下各项识别率最高的单项特征。en-FPF在融合了简单的网格特征,并结合主成分分析和数据共享方法之后,对汉字的识别正确率,在训练数据稀疏的条件下,仍超过50%。 本文在验证了两种识别策略的互补性的基础上,分别设计了串行结构和并行结构的双策略组合系统。首先定义了字符匹配率用以反映两系统在某个识别正确率上的互补能力。在这一准则的辅助下,发现两种识别策略甚至在同样训练数据和同类型特征下,仍可以很好的相互补充。随后,设计了两种双策略组合系统,扩展了多分类器研究的内容和范围。串行结构的组合系统把无切分识别器插入到切分系统的字符切分阶段。这一组合结构是在识别过程中,先启动无切分系统,随后启动切分系统。并行结构的组合系统预先以并行方式执行切分和无切分系统,然后由切分系统的度量值决定是直接输出还是转而输出无切分的结果。实验结果证实了双策略组合系统的显著效力。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 范承亚,张素智,袁爱萍;汉字识别的预处理技术[J];郑州轻工业学院学报(自然科学版);1998年01期
2 丁晓青,刘长松;汉字识别的新突破和新进展──THOCR-97综合集成汉字识别系统和THOCR-2000自动电子出版系统研制成功[J];中国信息导报;1999年12期
3 张德喜,赵秋雨;神经-模糊技术在相似汉字识别中的应用[J];许昌学院学报;2005年02期
4 胡予濮;二指标隐马尔可夫过程及其在汉字识别中的应用[J];电子学报;1992年01期
5 张彩录,郭宝兰,张宇桐,韩勇,张宇铮;交替运用两种信源模型的汉字识别法[J];自动化学报;1994年01期
6 郭宝兰,张彩录,马颖丽,李素琴;可回溯点跟踪包含配选法印刷汉字识别[J];中国科学A辑;1989年05期
7 ;汉字识别技术的最新进展——清华文通THOCR-97综合集成汉字识别系统研制成功[J];电脑编程技巧与维护;1997年08期
8 刘宏申;用于研究汉字识别的软件平台[J];微机发展;2000年01期
9 韩燮,张永梅,刘幼立;汉字识别的方法及Rosen细化算法的改进[J];华北工学院学报;1997年01期
10 赖小兰;;汉字识别在档案管理中的应用[J];广东科技;2008年12期
11 朱学芳;毕厚杰;;用人工神经网络识别汉字的探讨[J];南京邮电大学学报(自然科学版);1990年04期
12 陈治平,林亚平,李军义;基于笔划和笔顺的汉字识别算法[J];湖南大学学报(自然科学版);2000年04期
13 张旭光;;车牌汉字识别方法研究[J];今日科苑;2008年18期
14 刘弢,罗为;文字识别理论初探及汉字识别方法的研究[J];黑龙江大学自然科学学报;1990年01期
15 刘玉树,战守义,张惠;一种联机手写汉字识别算法的设计与实现[J];北京理工大学学报;1995年05期
16 罗劲洪,余英林;手写体汉字特征提取的研究[J];华南理工大学学报(自然科学版);1996年04期
17 杨柳;;统计模式识别在汉字识别中的应用[J];内江科技;2008年11期
18 张春艳;;谈在信息化档案管理工作中汉字识别技术的应用[J];中国新技术新产品;2009年01期
19 王雪茹;;基于支持向量机的汉字识别方法研究[J];装备制造;2009年06期
20 唐降龙,舒文豪,刘家锋,李铁才;联机手写体汉字联想识别系统[J];信息与控制;1991年05期
中国重要会议论文全文数据库 前10条
1 石义;秦涛;彭艳丽;张扬;;基于模糊综合判别的城乡一体化水平评价研究[A];2009年中国土地学会学术年会论文集[C];2009年
2 梁俊杰;庄嵘;;论两相流分流器性能评价体系[A];中国制冷学会2005年制冷空调学术年会论文集[C];2005年
3 杜彩虹;;网络企业的相对投资价值评估[A];全国高校价值工程研究会2001学术年会优秀论文、大连理工大学2001届MBA优秀论文专辑[C];2001年
4 宋力;朱向军;;控股股东代理行为评价体系研究[A];第三届(2008)中国管理学年会论文集[C];2008年
5 徐峰;林松;祝媛媛;;构建教师学术、技术水平评价体系在高校教师职务聘任中势在必行[A];高教科研2006(下册:专题研究)[C];2006年
6 胡飞;杨昔;;城市主体风景区土地集约利用评价体系研究[A];节约集约用地及城乡统筹发展——2009年海峡两岸土地学术研讨会论文集[C];2009年
7 赵波;严立冬;;论循环经济发展评价指标体系的设计[A];2006年中国可持续发展论坛——中国可持续发展研究会2006学术年会经济发展与人文关怀专辑[C];2006年
8 胡春辉;刘晓东;;企业经济效益审计方法及其评价体系研究[A];中国烟草学会2006年学术年会论文集[C];2007年
9 陈高戈;;“三结合”的评价体系的构建与研究[A];全国教育科研“十五”成果论文集(第三卷)[C];2005年
10 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 苏统华;脱机中文手写识别—从孤立汉字到真实文本[D];哈尔滨工业大学;2008年
2 于英;城市空间形态维度的复杂循环研究[D];哈尔滨工业大学;2009年
3 左斌;中国野生动物园建设与管理评价体系研究[D];东北林业大学;2006年
4 刘苏社;我国政府农业投资效率研究[D];中国农业科学院;2009年
5 郑小晴;建设项目可持续性及其评价研究[D];重庆大学;2005年
6 曾丽娟;住宅产业技术创新的机制研究[D];西安建筑科技大学;2007年
7 李萍;林业重点工程绩效审计研究[D];东北林业大学;2007年
8 宋荣兴;城市生态系统可持续发展指标体系与实证研究[D];中国海洋大学;2007年
9 周洁敏;大熊猫生境质量评价体系研究[D];北京林业大学;2008年
10 郭晖;新疆农村金融生态评价与优化途径研究[D];西北农林科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 袁长跃;辽宁省装备制造业新型化评价体系研究[D];沈阳工业大学;2007年
2 汤佳琪;都市边缘地区小城镇房地产业投资环境评价因素问题研究[D];北方工业大学;2008年
3 张兴菊;上市公司财务治理效果评价研究[D];沈阳工业大学;2008年
4 孙国权;基于虚拟施工技术的工程变更评价模型及控制[D];哈尔滨工业大学;2007年
5 程茉莉;基于能值分析的校园生态评价系统研究及应用[D];天津大学;2008年
6 李磊;发展性教学评价在初中数学教学中的应用研究[D];山东师范大学;2005年
7 杨帆;区域旅游业经济绩效评价研究[D];湖南大学;2006年
8 岁玥;中国都市圈创新体系的发展比较与评价[D];上海交通大学;2007年
9 张洁;开发区土地集约利用潜力评价[D];西北大学;2008年
10 田亚新;太原高新区创建创新型园区评价体系研究[D];北京林业大学;2008年
中国重要报纸全文数据库 前10条
1 周纪明(作者单位:河北经贸大学);建立科学的干部考核评价体系[N];河北经济日报;2005年
2 锦秀文;登报道歉还需完善官员评价体系[N];中国改革报;2007年
3 记者 高铸成 通讯员 李泓;深圳首推“和谐评价体系”[N];工人日报;2006年
4 ●主持人:本报记者 支玲琳   ●嘉宾:乐正(深圳社科院院长、教授);关注国内首个和谐评价体系[N];解放日报;2006年
5 记者  蔡琦 应丽斋 通讯员  包毓琼;嘉兴“评价体系”开全省先河[N];嘉兴日报;2006年
6 记者 白天亮;“综合绩效”约束央企负责人[N];人民日报;2006年
7 本版编辑 陆炎 程忠 张卫玲 于文忠;如何看待课改后的评价体系?[N];中国体育报;2006年
8 记者 郝建新 特邀记者 郝吉;绿色指数成为考量节能减排新依据[N];科学导报;2007年
9 黄晓华;建立城市信用发展环境评价体系[N];海南日报;2008年
10 葛琪葛军建;陕西力推服务业争创名牌宣传工作[N];经理日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978