收藏本站
收藏 | 论文排版

非特定人的自然书写脱机中文文本行识别

李南希  
【摘要】: 非特定人的自然书写脱机中文文本行识别是目前手写字符识别领域里的一个难题。与以往的手写字符识别相比,它具有以下几个特点:(1)识别对象为中文文本行的图像,即:输入图像为一行中文句子,其中可能包含了十几甚至几十个字符,因此无法对其进行整体识别,而需要直接或间接地确定这些字符的边界。(2)待识别的文本行是自然书写的,即:未对书写者做任何书写上的限制,所以无论是单个字符的形状,还是字符之间的位置关系,都将发生很大变化。(3)文本行的书写者不是特定的,即:由任意多个人进行书写,因此文本行的书写风格差异很大,而书写者自适应的技术在此情况下不再适用。以上几个特点,都加大了手写字符识别的难度。目前,非特定人的自然书写脱机中文文本行识别仍然处于实验室研究阶段。与西文字符、数字字符相比,中文字符具有类别繁多、结构复杂等特点。因此,要达到与前者相当的识别精度,中文字符的识别难度更大。本文以此为研究课题,建立了一个非特定人的自然书写脱机中文文本行识别系统,主要工作如下: 1.在基于切分的文本行识别方法中,首先需要确定文本行中各个字符的界限,然后以单字符为基础对文本行进行识别。本文提出了一种新的预切分算法,针对非特定人的自然书写脱机中文文本行中三种常见情况:自然分隔的字符、重叠字符、以及粘连字符分别进行处理,切分出文本行中的单字或单字的部件。由于能快速地产生文本行的曲线切分路径,与其他常用的预切分方法相比,本文方法在提高切分速度的同时,能较准确地进行文本行的切分。 2.在传统的单字符识别中,仅采用正样本(即:真实字符的样本)对分类器进行训练,因此训练出的分类器将不能判断输入字符是否为一个负样本(即:非真实字符样本)。在基于切分的文本行识别中,预切分将会产生大量的负样本,给文本行的识别带来了很大的干扰。为了减少这部分干扰,可以利用负样本训练的方法,增强单字符分类器对于负样本的辨认能力。以往中文单字符分类器的负样本训练方法,对于非特定人、自然书写情况下的中文字符不太合适。本文提出了一种基于线性判决分析(Linear Discriminant Analysis,LDA)的负样本训练方法:首先直接利用传统单字符分类器对输入的正、负样本进行识别,然后通过线性判决分析对传统单字符分类器的输出进行变换,估计出正、负样本的概率分布。最后,利用估计出的概率对原单字符分类器的输出进行修改,从而实现了单字符分类器的负样本训练。实验表明,本文方法的性能优于其他的负样本训练方法。 3.在文本行的识别中,除了对单字符进行识别,利用字符之间的相互关系辅助识别也十分重要。字符之间的相互关系包括:相邻字符之间的几何排列关系,上下文的语义关系,等等。将单个字符的信息与字符之间的信息进行融合,有利于提高文本行识别的准确性。但以往文本行识别中常用的多信息融合方法,或者利用了太多的验证器,增加了计算量;或者采用了经验估计的方法简化计算,但与文本行的真实情况出入较大。本文利用贝叶斯公式推导出一个新的概率模型,对单字符识别的信息、相邻字符的几何信息、上下文语义信息等进行融合。仅需两个分类器,就可以实现该概率模型:首先利用一个单字符分类器,对文本行中的字符进行识别,并输出单字符识别的后验概率。然后利用第二个分类器,对中文文本行中的主要字符类型进行分类,在此分类中也输出一个后验概率。最后将这两个后验概率、以及n元语言模型中的概率相乘。通过以上简单的处理,就实现了文本行识别中的多信息融合。 实验表明,本文建立的非特定人、自然书写脱机中文文本行识别系统,在一个较大规模的公开数据库——哈工大多人手写真实文本数据库中取得了良好的识别结果。当使用二元语言模型时,文本行中字符级别的正确识别率达到了78.82%,优于目前最新报导的实验结果。 非特定人的自然书写脱机中文文本行识别是一个综合性的研究课题,涉及到模式识别、图像处理、自然语言理解等学科的知识。该课题对于未来手写字符识别、人工智能等技术的发展,有着重要的实用价值和理论意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
3 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
4 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
5 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
6 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
7 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
8 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
9 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
10 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
11 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期
12 刘金岭;;基于《现代汉语语义分类词典》的文本聚类方法[J];情报杂志;2010年11期
13 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
14 朱红灿;唐毅;;一种基于DASOM的两阶段中文文本聚类方法[J];情报杂志;2007年09期
15 袁树雄;孙星明;;中文文本多重水印算法应用研究[J];计算机工程与应用;2009年13期
16 刘来旸,樊孝忠,李淑芳;基于变长编码集合扩展的中文文本压缩算法[J];北京理工大学学报;2001年04期
17 刘晶茹,王开铸;中文文本自动校对技术研究及系统组成[J];电脑学习;1999年06期
18 文庭孝;侯经川;龚蛟腾;刘晓英;汪全莉;;中文文本知识元的构建及其现实意义[J];中国图书馆学报;2007年06期
19 兰杰;在西文状态下阅读中文文本文件[J];电脑知识与技术;1997年02期
20 李萌;孙甲;贾佳;孙济庆;;基于搜索引擎的中文文本检索效果比较研究[J];情报探索;2009年02期
中国重要会议论文全文数据库 前2条
1 费文斌;唐向宏;张宁;王丽娜;;一种基于多音字的中文文本篡改检测水印算法[A];浙江省电子学会2011学术年会论文集[C];2011年
2 文芳;申永军;;基于词语相关度语句信息熵的中文文本零水印设计[A];2011国际信息技术与应用论坛论文集(《计算机科学》2011.7)[C];2011年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
8 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
9 金海龙;基于荧光机理的海藻识别方法与实验研究[D];燕山大学;2006年
10 汤光华;基于一维距离像的雷达目标识别[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
2 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
3 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
4 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
7 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
8 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
9 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
10 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 福建 陈桂鑫;别在识别软件中扫描[N];电脑报;2004年
3 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
4 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
5 ;健康、成本兼顾[N];中国计算机报;2004年
6 ;扫描文字全攻略[N];中国电脑教育报;2003年
7 四川 郑军;对《提高连续识别效率》的补充[N];电脑报;2004年
8 徐正考;汉字构形的深入之思[N];中国文化报;2008年
9 特约撰稿人 郑优军 甄浩;文稿输入让键盘走开[N];电脑报;2001年
10 万平国;给防火墙更多的智能[N];中国计算机报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978