收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于增量学习的中文手写书写者自适应技术研究

丁凯  
【摘要】:一直以来,无约束的中文手写文字识别都是模式识别领域的一大难题,长期成为该领域的研究热点。虽然规范的中文手写识别技术已经取得了较大的发展,但如何在无约束的风格多样的中文手写识别领域中获得令人满意的识别性能(大约98%左右)就是一个与待解决的重要问题。 另外一方面,随着iPhone, iPad, Android智能手机等针对个人消费者的手持设备越来越流行,书写者自适应技术越来越受到学术界和工业界的重视。因为,在实际应用中,在一台固定的设备(比如智能手机,平板电脑等)上使用手写识别相关应用的使用者往往是一个特定的用户,对于该用户来说,识别引擎能否在该特定用户的书写样本上取得好的识别性能要远比在所有用户书写的样本中取得好的平均识别性能更为重要。 针对以上问题,本文致力于研究基于增量学习的书写者自适应技术,这种技术可以通过不断的对特定用户的书写风格进行自适应的学习,从而不断的提高该特定用户的识别率,使得用户获得“越写越准”的用户体验。然而这项研究工作面临着多项技术难题,包括,汉字结构复杂与书写风格多变的问题,增量学习技术与书写者自适应技术的融合,增量学习样本数量不稳定和数量过低的问题,在鉴别特征空间(Discriminative Feature Space)进行增量学习的问题,以及同时对特征变换和分类器等相关联的多模块进行增量学习的问题。本文围绕着这些难点对基于增量学习的中文手写书写者自适应技术展开了一系列的研究,主要工作包括: 1.对中文手写单字识别进行了深入研究。包括了手写文字的预处理、特征提取和分类器的设计。在此基础上,本文对联机手写文字识别中的特征提取技术进行了深入的研究。在联机中文手写汉字识别技术中,虚拟笔画技术是解决联机草书识别问题的一项关键技术,但它同时也存在混淆部分汉字笔划的严重弊端。本文通过理论和实验,深入分析了虚拟笔画技术在大类别汉字识别时的利与弊,提出了两种用于改进虚拟笔画技术的算法。实验结果表明,采用本文提出的方法大大减少了虚拟笔画技术带来的弊端,同时也保留了该技术的优点,使得识别率得到了更进一步的提升。 2.针对传统的基于切分的手写中文词组识别技术中,由于切分技术不成熟导致识别性能较差的问题,提出了一种基于整词识别的旋转无关的无约束中文手写词组识别技术。实验表明,该技术的性能要远远优于传统的基于切分的中文手写词组识别技术。与此同时,针对整词识别方法中数据库难以创建的问题,本文也提出了一种中文手写词组合成方法,该方法可以利用目前现有的手写单字样本合成手写词组样本。实验表明,通过利用该合成数据库训练的手写中文词组识别系统可以在真实的手写中文词组数据集上获得良好的性能,从而证明了该技术的有效性。 3.在模式识别领域中,线性判决分析(Linear Discriminant Analysis, LDA)技术由于其良好的性能而收到广泛的应用。尽管增量的线性判决分析(Incremental Linear Discriminant Analysis, ILDA)技术也在数据挖据,人脸识别中有了相应的应用,但是基于ILDA的书写者自适应技术仍没有人研究。针对该问题,本文首次在中文手写文字识别的框架下,创新性的提出了一种基于增量的线性判决分析的中文手写书写者自适应技术。与此同时,针对ILDA技术中增量样本不足和不稳定的问题,在ILDA算法中引入了加权机制,提出了一种加权的ILDA算法(Weighted ILDA, WILD A).实验结果表明,通过利用ILDA或者WILDA技术对特定用户的书写风格进行自适应的学习,可以大大降低该特定用户的识别错误率,同时对其他一般书写者的识别性能影响很小。另外一方面由于WILDA技术可以很好的解决增量样本不足和分布不均的问题,因此其性能要优于ILDA算法。 4.在中文手写文字识别领域,修正的二次判决函数分类器凭借其优良的性能得到了非常广泛的应用。本文将增量学习算法与该算法相结合,创新性的提出了—种增量的修正二次判决函数(Incremental Modified Quadratic Discriminant Fuction, IMQDF)方法,并与书写者自适应技术相结合,提出一种新的书写者自适应技术。并在此基础上将ILDA技术与IMQDF技术相结合,提出了一种基于ILDA和IMQDF的两级增量学习框架(我们称之为ILDAIMQDF技术),并将其应用到中文手写书写者自适应技术中。最后类似于WILDA算法,将加权机制引入到IMQDF和ILDAIMQDF算法中,提出了WIMQDF和WILDAIMQDF算法。实验表明,以上四种基于增量的二次判决函数的书写者自适应技术可以获得远胜于基于ILDA技术和传统的模版更新技术的书写者自适应技术的性能。而WILDAIMQDF由于将ILDA算法和IMQDF算法相结合,并引入加权机制解决了增量样本不足的问题,获得了最优的性能。 5.尽管基于增量的二次判决函数的中文书写者自适应技术能够获得非常好的性能,但是其巨大的参数存储量大大制约了其应用范围和前景。针对这个问题,本文提出了一种基于K-L变换和子空间矢量量化的两级压缩技术,该技术能以牺牲较小的识别性能来换取大幅降低增量的二次判决函数技术的存储空间。通过实验表明,通过利用该技术可以将增量的二次判决函数技术的存储量从3755MB压缩到9.98M,大幅压缩了99.73%,而首候选和前10候选的识别率分别仅仅下降了1.56%和0.08%。 总之,基于增量学习的中文手写书写者自适应技术的研究是一个涉及多个领域(手写文字识别、机器学习、图像处理)的综合研究项目。通过对特定书写者的书写风格的学习,可以将一个书写者无关的识别引擎转化为一个书写者相关的手写识别引擎,从而大大提高对特定书写者的书写样本的识别率,进而使用户获得更自然、更人性化、更好的用户体验。这些特点都表明了中文手写书写者自适应技术将是汉字手写识别技术未来的一个重要的发展方向。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.41

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 陶品,张钹,叶榛;构造型神经网络双交叉覆盖增量学习算法[J];软件学报;2003年02期
2 彭彬彬,孙正兴,金翔宇;多值分类环境下基于SVM增量学习的用户适应性研究(英文)[J];南京大学学报(自然科学版);2004年02期
3 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
4 景博,李剑,钱越英;一种协商在线增量学习算法及其在基于智能体的电子商务中的应用[J];计算机工程与应用;2005年02期
5 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
6 杨森,徐海涛,柴乔林;应用支持向量机实现增量入侵检测[J];计算机工程与应用;2004年27期
7 刘璨;粗集神经网络过程监控模型的增量学习法[J];机床与液压;2004年01期
8 滕月阳,唐焕文,张海霞;一种新的支持向量机增量学习算法[J];计算机工程与应用;2004年36期
9 张仕华;王学业;;增量回归支持向量机改进学习算法[J];计算机工程与应用;2006年03期
10 陶品,张钹,叶榛;可继续学习的构造型神经网络构造算法[J];计算机工程与应用;2002年08期
中国重要会议论文全文数据库 前10条
1 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 王会珍;朱靖波;季铎;叶娜;张斌;;基于反馈学习自适应的中文话题追踪[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张来平;杨永健;张涵信;;混合网格上的高分辨率数值计算方法和自适应技术研究[A];全国流体力学青年研讨会论文集[C];2001年
4 杜冰;;一种适用于前馈功率放大器的新型自适应技术[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 王玲;穆志纯;郭辉;;基于支持向量回归的增量建模方法[A];第25届中国控制会议论文集(上册)[C];2006年
6 尚勇;吴顺君;;基于降维并行技术的两维自适应FIR滤波[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
7 张焱;范京;;平衡方波传输的自适应盲均衡[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年
8 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
9 郝增荣;刘海军;柳征;姜文利;;一种基于神经网络增量学习的辐射源识别算法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
10 王瑞利;付汉清;;流体力学数值模拟中的网格自适应技术[A];中国工程物理研究院科技年报(1999)[C];1999年
中国重要报纸全文数据库 前10条
1 李江力、王海涛;多工作模式下的自适应技术[N];中国计算机报;2002年
2 林辉;IMT-Advanced无线接口技术的研究[N];人民邮电;2007年
3 廖科;“自适应”的使用该有度[N];电脑报;2006年
4 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
5 史婕;谁能抓住这轮竞争机会[N];科技日报;2005年
6 王雅慧;首信网络针对中小企业[N];中国计算机报;2001年
7 焦明;电路在线维修测试仪问世[N];中国建材报;2003年
8 杨莉;三维表面检测系统进军造船领域[N];中国船舶报;2008年
9 张建辉 吴松;TD—SCDMA积跬步 HSDPA以致千里[N];通信产业报;2005年
10 江苏 周志安;高压气体放电灯电子镇流器专用模块[N];电子报;2006年
中国博士学位论文全文数据库 前10条
1 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
2 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
4 何学文;基于支持向量机的故障智能诊断理论与方法研究[D];中南大学;2004年
5 王昱;考虑特征变量异质性的分类方法及其在风险决策中的应用研究[D];中国科学技术大学;2009年
6 李斌;概率混合模型的研究及其应用[D];复旦大学;2009年
7 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
8 华惊宇;新一代移动通信内接收机理论与应用研究[D];东南大学;2006年
9 杨刚;OFDM通信系统中PAPR抑制技术的研究[D];西安电子科技大学;2006年
10 刘康苗;自适应网络信息获取服务技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 邓继辉;预应力锚拉结构自保护技术及其设计方法研究[D];重庆大学;2005年
2 刘虹;应用改进遗传算法进行PID控制器参数整定[D];江苏大学;2006年
3 周松松;基于MLLR手语自适应方法的研究与实现[D];大连海事大学;2009年
4 郝青峰;军用无线通信装备自适应调制技术研究[D];重庆大学;2009年
5 王庆;新锥模型信赖域算法研究[D];太原科技大学;2009年
6 葛跃田;链路自适应技术的仿真研究[D];东南大学;2004年
7 刘桓;射频功率放大器的自适应数字预失真技术研究[D];武汉理工大学;2008年
8 刘媛媛;射频预失真功率放大系统设计与实现[D];北京邮电大学;2008年
9 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年
10 李曼;云计算平台上的增量学习研究[D];南京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026