基于深度学习的手势识别研究
【摘要】:随着科学技术的飞跃发展,人机交互越来越频繁的发生在更多人的身边,为许多人的生活带来了方便,其中人机手势交互是最为活跃的一个领域。然而手属于非刚性物体,变化丰富,使得手势识别的难度加大了不少。自2006年来深度学习(Deep Learning,DL)有了长足的发展,它给人工智能带来新的希望,它优异的表现给了我们足够的信心来完成手势识别这项任务。手势识别是一个复杂的系统,通常基于计算机视觉的识别系统包括手势定义、图像的获取、处理、分析、理解。一个好的识别系统往往离不开一个好的前期处理,但是这并不代表图像的前期处理是最重要的,在本课题中我们把重点放在了手势识别的算法研究上。在手势识别的实现过程中我们分别从深度学习两个主要方面入手,一是采用基于限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)的DL网络,二是采用以基于Le Net-5卷积神经网络(Convolutional neural network,CNN)的DL网络。本文还提出了一种CNN和RBM联合网络:利用多个RBM形成堆积式网络进行无监督特征提取,再结合CNN的有监督特征提取,最后融合这两类特征进行分类。仿真结果表明我们提出的联合网络在识别背景简单的手势样本中有更好的表现,而对于复杂背景的手势样本的识别能力则还有待提高。另外,DL相对于传统三层神经网络有明显的优势,同时DL极大改善了多层网络的训练问题,从我们的仿真过程中可以看出多层DL的性能要好于传统浅层网络。针对无人机的手势控制,本文首先定义了十类基本手势,同时又分为简单背景下的手势样本和复杂背景下的手势样本,并对这些样本做了简单的前期处理。在静态图像识别中使用了五种网络,分别是深度信念网络(Deep Belief Networks,DBNs)、深度神经网络(Deep Neural Network,DNN)、CNN、CNN和RBM的联合网络以及传统三层神经网络。针对视频流中的手势识别,本文划分了三个环节分别是检测、跟踪、识别,并做了详尽的介绍。其结果表明CNN能很好的适应复杂环境下手势的检测、跟踪、识别。