手写文字识别及相关问题算法研究
【摘要】:作为信息表达和交流的重要工具,文字被广泛地应用于人们的日常生活和工作中。同时,手写也是每个人在社会中赖以生存的技能。随着计算机的发展和普及,手写文字识别作为一种高级的人机交互方式在近几十年来引起了人们的广泛关注。虽然研究者们在手写识别领域已经取得了大量突破性的进展,但是基于深度学习的手写识别算法仍然有很大的改进空间,因此如何设计更为准确高效的手写识别算法是本文的核心研究内容。另外,随着传感技术的发展,一种新型人机交互方式下的空中手写被提出,即用户可以直接使用手或手指在三维空间中自由地书写。然而,目前的空中手写识别研究仍然处于起步阶段,特别是针对空中手写中文文本识别的研究还处于一片空白。因此,空中手写识别也是本文的主要研究目标之一。本文主要的贡献总结如下:1.本文从一个全新的角度提出了一种基于一维卷积网络的联机手写汉字识别算法,即使用一维卷积网络直接对手写汉字轨迹的时序结构进行建模。本文提出的方法完全不同于目前主流的手写识别算法(包括基于二维卷积网络或循环神经网络的识别算法),并且具有显著的优势:(1)相比于二维卷积网络,提出的方法避免了经验化的领域知识来提取复杂的方向特征图,同时我们的模型参数更少且识别精度更高;(2)相比于循环神经网络,提出的方法能够并行地处理时序数据,其对于长序列手写轨迹的识别速度更快。2.本文提出了一种基于注意力机制的手写英文单词识别算法,该方法采用了编码-解码的架构并通过结合注意力机制迭代地输出目标字符串。同时,本文使用以下策略来进一步改进模型,包括:(1)我们使用一维卷积网络替代循环神经网络编码手写轨迹,显著地提升了模型的编码速度;(2)我们采用了词典约束的解码算法,显著地提升了模型的识别准确率。另外,我们构建了首个大规模的空中手写英文单词数据集IAHEW-UCAS2016用于促进后续的空中手写英文单词识别研究。最后,本文搭建了一个实用的空中手写英文单词识别系统。3.为了有效地识别联机手写中文文本,本文提出了一种新颖的时序卷积循环神经网络,其相比于现有的识别算法更具优势:(1)相比于主流的循环神经网络,提出的方法具有更快的计算速度和更高的识别准确率;(2)相比于最先进的全卷积循环网络,提出的方法避免了经验化的领域知识来提取复杂的特征图,同时模型的训练效率更高(包括更低的计算复杂度,更少的内存消耗,更快的收敛速度)且模型参数更少。为了进一步探究新型的空中手写,本文搭建了世界上首个三维空中手写中文文本识别系统。据我们所知,目前学术界还没有任何针对空中手写中文文本识别的研究。为此,我们构建并公开了首个大规模的空中手写中文文本数据集IAHCT-UCAS2018,从而促进后续的空中手写中文文本识别研究。4.本文提出了一种新颖的基于生成对抗网络的手写文本生成算法。现有的手写生成方法还没有完全地解决手写文本生成任务,因为它们都局限于生成较短的手写单词或者随机风格的手写文本图片。相反,本文提出的模型能够根据给定的任意文本生成任意长度的手写图片,其不局限于事先定义好的语料库或任何词汇表外的单词。同时,我们的模型能够从给定的参考样本中准确地提取出书写风格,从而进一步模仿生成具有相似风格的其它手写文本。实验分析表明本文提出的模型针对手写文本生成具有很好的泛化性,而不是单纯地记忆训练集中的真实手写样本。5.针对基于卷积神经网络的手写汉字识别模型,本文提出了新颖的一体化网络压缩算法。本文提出的压缩算法结合了通道裁剪和参数量化两种策略,能够在保证识别精度的前提下最大限度地压缩识别模型。具体地,在通道裁剪阶段,我们采用了粗细粒度相结合的裁剪策略来迭代地裁剪掉卷积网络中冗余的通道;在参数量化阶段,我们引入了权值丢弃和迭代式量化策略来最大限度地量化模型参数。在公开手写数据集(包括ICDAR-2013,IAHCC-UCAS2016,以及MNIST)上的实验结果表明提出的方法能够显著地压缩基于卷积神经网络的手写汉字识别模型。