收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习方法的人脸表情识别研究

Ongalo Phoebe Nasimiyu Fedha  
【摘要】:对人际交往而言,除了自然语言、肢体动作以外,面部表情(facial expression)也是一种独特而重要的信息传递方式。面部表情往往能够传达很多语言所不能传达的东西。面部表情可以分为宏观表情和微观表情,宏观表情是人们在常规状态下展示出的面部信号:而微观表情则是短暂的、潜在的表情,这种表情通常发生在人们有意或无意的隐藏或压制他们的内心情感时。面部运动不仅反映了情感,也反映出了其他人类情感,如社会活动和心理变化。 人脸表情识别,是采用机器和软件对人脸表情信息进行处理,提取其特征并进行分类的过程。其目的是使计算机能够根据人的表情信息,推断人的心理状态,从而实现人机之间的智能交互。一般而言,表情识别系统主要有四个基本部分组成:表情图像获取、表情图像预处理、表情特征提取和表情分类识别。人类能迅速地理解它人的丰富表情,并为之做出回应。如果人类的这一特性能为计算机交互所利用,那将极大的推动人机交互问题的解决。由于人的丰富的面部表情很难用低级可视特征进行精确的描述,传统的面部识别系统通常存在人与计算机之间的语义鸿沟的问题。 人脸表情分析、检测和识别是计算机和模式识别领域一项重要且富有挑战性的研究课题。无论是从图像中定位出脸部,还是在图像中识别出少数有效的孤立物体,这些都是非常复杂的。现有的人脸表情识别系统旨在能发觉和理解人类的情感状态,但这些表情通常是在在不受干扰的情况下提取出来的。对观察者而言,自然的面部表情可以暗示出一种特定的情绪,然而,在实际生活中,人们可能会先模仿了别人的表情,却在最后表达出一种完全不同的情绪。为了避免结果受到影响,我们需要一种智能的计算机系统,它能根据从脸部提取到丰富的面部信息,分析表情的真实变化。尽管现有研究成果已经表明了脸部表情、情感信号和内心状态之间的关系,但是怎样让计算机更好地提取人类面部信息仍旧是一个亟待解决的问题。 过去的几十年中,大量的研究人员致力于人脸表情分析的研究,他们对面部表情的研究可大致分为:表情预处理、面部特征提取、情感分类。通常其输入数据是静态图像或视频序列。针对人脸表情的研究的主要内容是对人类的情感状态进行检测、解释以及分类,并使用恰当的方式处理这些情感信息。现有的面部表情分析方法大致可分为两类:基于几何特征的方法和基于视觉特征的方法。典型的基于视觉特征的方法是动态文理识别的方法;而基于几何特征的方法包括面部成分的形状和位置特征、面部特征点的位置等。这两种方法的区别主要在于特征的提取与描述方法不同。几何特征通常只考虑特征点的运动,而忽略了皮肤纹理变化提供的丰富信息、;另一方面,基于视觉特征的方法则容易受到光照和个体差异的影响。视觉特征的方法的优势在于该方法会生成细节信息,获得更好的识别精度,简单且性能良好。有大量的研究工作都属于这一类别,且极具实际意义。 本文首先对人脸表情识别研究的相关工作进行了总结,从面部表情描述、面部表情识别框架、特征提取和表示、分类方法几个方面,对该领域的研究现状进行了回顾。 (一)面部表情描述 对表情研究可追溯到查尔斯·罗伯特·达尔文在1872年出版的《人类与动物的感情表达》。达尔文追溯了人类特征的起源,如:紧闭的嘴唇、紧蹙的眉毛、眼泪和呻吟等特征。这些研究表明,人类表情可被分为:愤怒、害怕、开心、讨厌、悲伤以及惊奇等。达尔文的研究构成了现代人脸表情识别系统的理论基础。 计算机技术的发展极大地推动了人脸表情识别研究。1978年,Suwa等首先提出了人脸表情识别系统,1990年Mase和Pentland做出了对表情识别系统的开创性的工作。自此以后,大量的研究人员使用计算机系统从事这方面的研究。人脸表情是由于脸部肌肉的运动而产生的,从而导致了面部特征的变化。为度量面部表情的重要性,需要确定面部运动的位置以及其强度。面部表情的强度可以通过面部特征的几何变化进行度量。通常,面部表情可使用三个参数进行描述:起始点(Onset)、最大点(Apex)、结束点(Offset)。一些研究人员研究了如何自动地计算面部表情的起始点和结束点。为了捕获人的面部表情,需要对面部表情进行精确定义。面部运动编码系统(FACS)是目前广泛使用的面部运动标记系统,该系统将面部表情的变化与产生表情的肌肉的运动联系在一起。运动单元(AU)是最小的可视面部动作。面部运动编码系统提供了一种客观的方法描述面部表情,且该系统可以发现与情感相关的新的运动模式。近年来,基于FACS的研究表明:面部运动可以区分以较高的精度区别说真话的测试对象与说假话的测试对象。总体来说,FACS给许多实际应用提供了一个通用的解决方案。但该方法需要人工对实验数据进行标记,且人工不可能对动态表情进行标记。在需要进行实时反馈的应用场景中,FACS通常不适用。 与使用FACS描述面部特征细节不同的是,一些识别系统使用了基于主观标记表情原型的描述方法。主观表示用于推断面部表情背后的隐含意义,如:感情或个性等。通常,情感原型表示会根据面部表情的强度变化而变化。这种方法的主要问题在于它不能依据现有的表情子集来表示所有可能的情感类别。 (二)自动面部表情分析系统框架 自动面部表情分析能根据面部特征判断个人的特征。通常,人脸表情识别系统可以看作一个单独的表情识别系统或作为人脸识别系统的一个模块。本文提出了一个面部表情分析系统的框架描述。图像获取和人脸识别是该框架的重要组成部分。目前,很多方法都可以从静态图像中进行人脸检测。早起的大多数检测方法只能检测人脸的正面。2004年,Viola和Jonesy提出了一种基于AdaBoos学习的人脸检测算法,在进行人脸和背景分离方面,该算法被认为是最快最有效的方法。Dalal等应用HOG描述子的进行了人脸检测,实验表明,该描述子的效果优于其它已有特征。 (三)特征提取和表示 特征表示阶段需要找到最恰当的方式表示面部对象,从而进行表情识别。通常,特征表示需要将人脸的像素数据转换为基于形状、运动、颜色、纹理、空间信息等高级对象表示的数据。 Pantic团队提出了经典的基于几何特征的特征表示方法;Tian等则对眼睛、眉毛、嘴唇以及其他特征进行形状建模来提取特征。Bartlet等则提出了经典的基于视觉特征的表情特征表示方法。 尽管研究人员已经提出了不同的方法表示面部表情的特征,但这一问题仍需要进行进一步的研究。目前,小波分析是一种流行的多分辨率分析方法。小波用于将单个的输入信号分解成多个更简单、更易于处理和解释的信号,同时,基于频域的表示方法充分利用了感兴趣的区域,同时也进行了降维。文献[95]使用Radon变换和傅里叶变换进行人脸检测;文献[96]则使用基于粒子群优化算法的Random变换,以及PCA和LDA技术进行人脸检测。文献[97]基于Random变换和小波变换,提出了一种新的人脸识别的框架。 (四)分类 分类是人脸表情分析系统的最后阶段。常用的分类方法有基于神经网络的方法、支撑向量机的方法、线性判别分析的方法等、基于马尔科夫模型的方法。其中,基于神经网络的表情识别方法的识别性能优异。有一些文献使用神经网络进行表情分类。 表情是心灵的窗口,而表情与行为也有密切联系。我们可以通过人脸表情预测或理解它人的行为,因此,对计算机来说,人脸表情识别是一种有效地与人交流的方式;通过理解人脸信息,计算机能对人的特征或情感做出判断。考虑到人脸对象以及获取人脸对象的设备的多样性,需要一种预处理机制解决对象特征的全局归一性问题。对计算机来说,具有明显边界的面部对象比边界模糊的面部对象更容易识别。而边界问题主要是由姿态、噪音或光照问题引起的。因此,我们需要对图像进行特征表示,可以是图像密度、颜色、文本或这些特征的组合。 现有的人脸识别算法,在单独应用时,都难以达到实际应用需要的识别精度。因此,本文试图在现有各种算法的基础上,致力于提高识别精度的研究。本文的目标是深入考察现有识别算法的技术特点和应用特征,通过引入新的处理过程、优化模型和参数、融合方法,提高识别计算的有效性。 本文的主要工作包括:分析了图像增强对识别性能的影响,通过对噪声数据进行分析,得到了图像噪声干扰识别特征提取的潜在趋势,提出了一种针对表情特征描述的相似性增强方法,使用图像增强技术获取图像的边缘特征,提取图像的关键特征并减少图像噪声,为提高表情对象分类的有效性提供条件。针对人脸表情的变化特点,本文提出了一种基于小波变换(DWT)的图像分割以及统计分析方法,成功地提取人脸表情特征,供后续过程进行识别。大部分自然图像都包含了丰富的方位信息,如垂直或水平边界。DWT有效地消除了噪声,保留了图像边缘的细节信息。运用方位信息,我们实现了低内存、低计算复杂度的基于DWT的特征提取方法。本研究不仅为经典DWT提供了一种应用方案,也为特征提取提供了新的解决办法。在小波变换之前,本文使用了去噪算法对人脸图像进行去噪处理,然后进行小波变换,最后重构图形并进行识别。本文深入研究了分水岭转换计算方法,提出了一种使用了非刚性配准原则的计算模式,有效解决了形状和脸部组成成分的分解问题。论文还使用主成分分析法对图像的形状特征进行降维处理,最后基于神经网络进行分类。 本文的主要研究内容涵盖了表情识别的主要方面,包括面部表情表示和特征提取、面部表情分割的方法、基于滤波反投影的纹理分析、基于小波提升的纹理分析 (一)面部表示和特征提取 本部分主要讨论如何进行图像数据预处理,它是后序算法的重要基础。首先描述了图像的预处理和增强过程,并使用低级图像处理算法进行处理。本文提出的降噪过程,综合考虑了低噪声的原型对象以及亮度连续的人脸表面,从而在下一步操作之前,突出了感兴趣的对象;在此基础上提取特征进行对象分类。本文的方法一方面解决了计算维度过高的问题,同时,将图像投向低维坐标系,使得从人脸表情识别系统提取出的面部特征保持高感知质量。我们的核心思想是,跟踪面部肌肉动作,突出感兴趣的目标对象,降低了光照、噪音的影响。 技术上,本文通过基于形态学的变换和分水岭变换,较好地突出了感兴趣的目标对象的形状。在不同尺度下,本文增强了亮度值较大的像素点与暗像素点之间差异。通过使用变换操作符,不仅减少了光照和噪声的隐形,而且将图像的隐含特征块聚集在一起。本文方法的新颖之处是基于在更亮处和黑色图像区域增强对比度,用结构化像素和图像细节代替所选的像素,从而能够基于图像尺寸和分水岭细节知识,将面部特征与背景分割开来,突出了感兴趣的区域,如眼睛、鼻子和嘴。增强的面部特征是使用主成分分析法提取的,并送入神经网络用于分类。 (二)面部表情分割 本部分主要研究如何将二维面部图像分割为光照不变、且具有最小表情变化和旋转的图像块。本文提出了一种基于小波变换的增强top-hat变换操作以及bottom-hat变换操作,该方法可以量化分割算法对面部特征的感知能力,通过重建一系列的投影,重新在一个对象中组织内部结构信息。在汇总每条线的响应之前,通过采用傅里叶切片定理过滤出已提取的增强轮廓,用来估计脸部形状。该方法不仅不受旋转、照明和噪声的影响,而且可以利用已提取的不完整数据重建图像。本文通过离散小波变换和离散余弦变换对比实验,分析了提取有效特征的效果。我们证明,由于图像中的低频分量比高频分量视觉效果更显著,所以提取到的低维特征向量是训练神经网络分类器的重要数据。 为评测本文算法的有效性和实用性,我们使用了日本女性面部表情数据库(JAFFE).为了从每副图像中获取感兴趣的数据区域,使用本文的方法首先对数据进行预处理。在对象分割阶段,对象被看成具有密度结构的表面,本文使用分水岭分割自动地将面部表情特征从背景从分离出来,并高亮度的显示刚兴趣的区域,如:眼睛、眉毛、鼻子、嘴巴等区域,以便进行后序的机器学习。 本文测试了基于PCA和基于神经网络的分水岭分割的算法结果,结果表明,在JAFFE数据库上的识别精度达到98%。 (三)基于滤波反投影的纹理分析 面部表情和皮下肌肉的一种或多种运动有关,但不同的观察者看到这些表情时,可能有不同的理解。为避免产生有歧义的输出,本文研究了基于滤波反向投影的非线性转换面部描述子来估计转换参数,转换参数为后序的离散小波变换提供输入数据。Radom变换可以捕获图像的方位特征,DWT变换将图像转换为小波子空间,从而分离出有意义的数据,分离出来的数据特征向量可用于神经网络分类器。 选择JAFFE作为实验数据库,在实验阶段,本文测试了Radon投影的效果、形态逻辑操作预处理的效果、DWT方法的性能以及DCT-PCA域中滤波反向投影的效果。实验结果表明:识别精度主要处决于对输入图像的姿态、光照和面部变化的处理。为识别输入图像,对DCT系数进行PCA变换,计算训练向量中具有最大变化的特征向量。训练阶段使用了136个特征向量,测试阶段使用了70个特征向量。然后使用神经网络训练PCA过程的输出。 实验结果表明:用于消除噪声和不规则变化的形态学开操作和闭操作增强了有利于表情识别的低频成分;同时,滤波反向投影有效地增强了面部数据的提取。显然,这两种方法都有利于提取面部数据中的可视低频成分,从而提高表情识别的精度。 (四)基于小波提升的纹理分析 本部分主要利用小波提升方法和主成分分析法分析面部表情。本文提出了一种利用高通和低通滤波器的相似性的方法,以实现更快的小波变换,从而提升解决方案的有效性。我们注意到了利用非线性高通与低通滤波器的相似性,本文在提升方案中加入了中值滤波处理,利用它在压缩信号方面的潜力,即它所拥有的两种相似结构的计算能力,能够根据压缩完的一半数据样本来预测出另一半数据样本。整个转换过程分为三个阶段,这三个阶段不断的重复执行,直到预测完所有数据样本。像其他的数字图像处理一样,减少高频分量不会给图像带来视觉上的影响。 许多之前的研究结果中强调的旋转、光照和噪音等影响系统性能的因素对本文的算法不会产生影响。该系统的最后一步使用开始的两步提供的信息,来准确识别面部表情(高兴,悲伤,中性,恐惧,厌恶,愤怒和惊讶)。本文对不同的算法进行了对比实验,结果表明,这些方法是可行的,而且实验表明,本文提出的解决方案,增强了程序效能,改进了神经网络对面部表情识别的表现。为了分类脸部特征提取,我们使用JAFEE和PICS数据库的图片对神经网络进行训练。实验证明,本文方法在减少噪音、修改其他不规则的地方以及克服传统方法的缺点上,都体现出明显的有效性,从而对人脸表情识别系统提供了另一种解决方案。 人机交互设备在日常生活中的应用日渐增多,相关技术也在不断的发展,但人脸表情识别的问题仍旧没有得到解决。我们拥有的计算机设备的存储能力在不断的提高,这也刺激了我们需要更多的与其它人或事物保持联系,更多地了解他们的信息。因此,越来越多的智能设备出现在我们的日常生活中,但这也带来了一个问题,即:人和智能设备之间的交流,我们需要更完善的方式来填补人机交互之间的语义鸿沟。为了能建设更友好的人机交互系统,使用人脸表情进行有效地交流成为一种必然的方式。这意味着我们需要捕获人脸对象、记录人脸行为并且利用已有的信息进行分析和决策。本文针对人脸表情识别的问题,提出了一些有用的解决方案。 总体来说,本文的主要创新如下: (1)将图像分割成有意义的同构块是图像分析和机器视觉中的关键问题。使用分水岭进行图像数据分割或对图像进行形态学操作,是将图像对象表示成与形状有关的特征。本文提出了一种基于Top-hat变换预处理方法,能够有效降低光照、噪音的影响。通过对top-hat和bottom-hat进行增强,并应用在分水岭转化中,以此提取有效的面部特征进行表情识别。我们发现,Top-hat变换更适于提取基于暗背景的明亮对象提取;而bottom-hat则适用于基于亮背景的暗对象提取。在实际的应用中,暗图像特征和亮图像特征均存在于不同尺度的图像中。如果能提取各种尺度下的图像暗特征和亮特征,并应用于之后的分析,那图像增强的效果将大大提高。所以,本文方法致力于捕获这些特征,通过增大不同尺度下图像亮区域和暗区域的对比,有效减少了光照与噪声信号的干扰,增强了有利于进行识别的对象的基本特征。 (2)使用中值滤波器进行小波提升,使得图像的方位特征中的非垂直或非水平的线性边界得以最大化。该方法充分利用了高通滤波器和低通滤波器的相似性,加快小波变换的实现。本文的方法证明,首先使用形态滤波器减少由于光照和噪音影响带来,然后在小波提升中使用中值滤波器,是一条在消除噪音的同时保留图像中的有用信息的有效手段。 (3)本文提出了一种提高表情识别系统的精确性和鲁棒性的方法,基于滤波反投影方法重构对象的内部结构信息,再利用一系列投影进行数学重构,增强了表情识别中的基本特征。图像的投影形成特征向量,对该向量进行Radon转换提取图像灰度;再使用反投影生成向量,近似表示原始对象的形状。为了避免直接投影的缺陷,使用傅里叶中的切片定理过滤光强分布。使用以上的小波变换方法,进行降维和图像去噪,得到了更好的图像表示方法。在此上述表示框架下,小的图像系统表示噪声,大的图像系数表示重要的图像特征。特别地,离散小波变换用于把图像对象压缩成更小更方便管理的数据,从而能从少量的数据中提取有意义的图像信息、。我们从特征向量中提取出对光照和噪音不变的脸部特征,并进行神经网络的训练。最后,基于结果图像的逆小波变化,提供了具有本质特征的重构图像,并以此作为进行神经网络分类器的训练数据。 (4)研究了反投影过滤器对离散余弦变换的影响。在反投影过滤之前,本文对图像进行了形态学开操作和闭操作,并使用Radon变换进行转换。在此变换中,DCT变换用于提取旋转不变特征。低频率的切片成分在图像中比高频成分更具有视觉意义,因此,在DCT变换中,丢弃高频系数,并量化剩余的系数。通过DCT变换的应用,将输入序列表示为基于权重余弦序列的和。其结果系数用于描述信号,从而极大的减少数据量,同时也保留了图像重要信息。为进一步减少数据信息,使用主成分分析提取图像的特征。通过提取面部数据的重要特征,保留低阶主成分,丢弃高阶成分,PCA不仅减小图像大小,减少图像数据量,从而完成图像的降维。最后,使用前馈反向传播神经网络进行训练,从而完成表情识别。 人脸表情分析在人机交互中起着至关重要的作用。表情识别与人脸面部的运动变化有关,它提供了丰富的关于人的情感、内涵及其它内在状态的信息。尽管目前仍旧没有关于“情感”一词的精确定义,但人类情感的存在是毫无疑问的,而且它是我们的日常生活的重要组成部分。人类能够理解“情感”,并能针对它人的“情感”做出相应的反应,正因为如此,人类的之间的交互活动才显得如此丰富多彩。本文根据静态数据,解决了人脸表情识别的度量的问题。首先根据数据库进行人脸对象检测,然后进行关键点的面部表情特征提取并建立模型。计算机阅读面部表情和数据提取的能力至关重要,因为这决定了计算机是否能做出正确的回应,正确的表情读取是表情分类正确与否的关键。一个性能优越的表情系统需要处理面部识别、特征提取和分类等问题,且其结果与个人的年龄、周围环境、身体姿态等外部因素均无关。今后,我们将使用更多的标准数据库对本文的算法进行测试,并进一步提高算法的适应性。同时,人脸表情识别系统还需要捕获并识别更复杂多变的表情对象,这些是我们今后进一步研究的方向。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978