收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

语句级联机手写汉字识别方法

郭欣怡  
【摘要】:联机的手写汉字输入技术已经非常成熟。而起着关键作用的联机识别算法还不能达到高准确率的水平。这主要原因是手写汉字类别多、字形的多样化、各种形近字、连笔输入等原因。所以怎样解决这些差异、选出最具分类能力的特征与分类器成为识别技术的关键。 虽然各种成熟高识别率的书写识别产品不断更新问世,但都是限制在一个输入区域且每次只能识别一个汉字,但实际上是有上下文语义的句子或段落。单字输入时,就往往由于要从多个候选字中选择正确的目标汉字,而打断原来写文章的思路。平板电脑、大屏幕触摸设备提供了可以像传统纸张输入方式一样的可能性,一次可以输入多个汉字甚至一条语句。如此,“语句级”甚至“篇章级”汉字识别就成为汉字识别应用的一种新的趋势。联机手写汉字识别技术也会更加注重语句以及篇章级的识别方向。 本文将根据语句级识别算法实现一个语句级的联机手写识别系统。用户可以在无约束的条件下手写输入,识别过程在后台进行。当用户完成一句或一个段落时,可以一次性的将整段文字进行识别并显示出来,并可以与手写文档一同保存起来。整个过程分为单字识别阶段与后处理语言模型阶段。单字识别的正确率是重要的因素,特别是对特征的提取。本文对连续的NCFE八方向特征提取算法进行改进,增加了向量的端点处理,根据不同情况运用不同的赋值方法,增强了特征的区分性能,同时将AP聚类算法引入识别的粗分类阶段,AP聚类算法与其他聚类算法相比对手写字符识别有着明显的优势。第二阶段充分利用了用户输入的语义信息,建立语言模型对整个段落进行基于语句级的候选识别结果调整。在这里词典的容量和领域对调整结果影响很大,单纯的依赖字典的调整结果有时不但没有提高识别率,反而影响到正确的识别结果。为了解决这个问题,本文建立了将单字识别结果与语言模型通过优化权重相结合的识别算法。 最后,本文的算法在HIT-OR3C以及中科院CASIA-OLHWDB1手写数据集上进行实验与测试。结果表明与其他方法相比较,准确率有了明显的提高。整个语句级识别系统与现有识别系统来说,更是有着使用上的便利性。识别准确率能够满足使用要求。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.43

【相似文献】
中国期刊全文数据库 前10条
1 王兴强;刘长兴;刘国伟;;基于“军卫一号”工程的二次开发模式[J];中国医疗设备;2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 赵骥;唐春强;王爱侠;李晶皎;;基于马尔柯夫模型的满文识别后处理的研究和实现[A];2004中国控制与决策学术年会论文集[C];2004年
2 曹鹤;裴明涛;贾云得;;一种基于上下文的手写体汉字识别候选集选取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 赵康;边计年;吴强;薛宏熙;;C语言系统描述的HCDFG-Ⅱ实现[A];第三届中国测试学术会议论文集[C];2004年
4 肖镜辉;刘秉权;;粤拼序列自动切分算法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 何梅;刘亚军;陈耿;;词性划分和差额法在主观题阅卷中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 许敏;王能忠;马彦华;;篇章级拼音流到汉字流转换的实现设计及讨论[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
8 马少平;姜哲;;大型古籍《四库全书》识别系统[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
9 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 缪建明;吴晨;郝惠宁;张全;;一种基于HNC理论的领域知识表示研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前9条
1 张遥力;手写输入“貌似”成熟[N];中国计算机报;2002年
2 锄禾;让计算机看懂文字[N];中国电脑教育报;2003年
3 方忠诚;OCR技术及其应用[N];北京电子报;2000年
4 张文国;手写输入技术突破瓶颈[N];中国计算机报;2002年
5 ;我们让手机写汉字[N];中国电脑教育报;2008年
6 小添;走进Plam的世界[N];电脑报;2001年
7 吴卫华;管好你的名片资源[N];中国商报;2001年
8 ;信雅达与汉王强强联合开创OCR银行应用新领域[N];中国高新技术产业导报;2000年
9 江苏 沈舟;名片录入“不动手”[N];电脑报;2003年
中国博士学位论文全文数据库 前5条
1 龙腾;旋转方向无关的无约束手写中文词组识别[D];华南理工大学;2008年
2 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
3 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
4 丁杰;无限制手写体数字串切分与识别的相关问题研究[D];南京理工大学;2010年
5 崔展齐;若干软件非功能属性相关的设计和实现技术研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭欣怡;语句级联机手写汉字识别方法[D];哈尔滨工业大学;2010年
2 朱旭巨;汉字文本图处理与手写体汉字识别[D];浙江大学;2005年
3 赵健;一种基于形式概念分析的语句级方面挖掘方法[D];吉林大学;2005年
4 刘岗;无约束大词汇量联机手写词组识别新方法[D];华南理工大学;2011年
5 刘峰;基于Android的语句级智能汉字输入法研究[D];哈尔滨工业大学;2010年
6 李联涛;B737定检工卡中的手写汉字识别后处理关键技术的研究[D];中国民用航空飞行学院;2012年
7 杨毅宇;图片检索在网络敏感信息实时预警系统中的应用[D];南京理工大学;2012年
8 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
9 田志雨;基于程序执行的错误定位方法[D];南京理工大学;2012年
10 黄文伟;C程序文件间依赖性分析[D];东南大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026