基于人眼视觉模型的自然图像识别
【摘要】:人类视觉系统是世界上最好的目标识别系统,能够轻易的从复杂的外界环境当中获取有用的信息,研究者试图将生物视觉系统的特性融入到计算机视觉当中,建立符合视觉信息处理过程的模型,为计算机视觉的发展提供了一种新的思路。目前研究者已经提出了很多有关的视觉模型,但大部分不能很好的模拟视觉系统进行信息处理的各个过程。其中Serre的标准模型是性能较好的模型,本文在此模型的基础上对其进行改进,以构建出更加符合生物特性的性能良好的视觉模型。
本文首先研究了有关视觉皮层生理特性的基本知识,分析了目前比较成功的几个视觉模型,在标准模型的基础上,采用具有近似平移不变性并且冗余度较小的双树复数小波对其进行改进,在识别率和计算速度上都有一定程度的提高,结合Jim Mutch提出的稀疏化方法对模型进行优化,去掉大量冗余信息。
其次,在标准模型的基础上加入神经元激活机制来代替最大化方法,提出一种新的视觉模型—EAM模型,结合具有尺度不变性和平移不变性的Marr-like金字塔和复数小波、特征局部性等理论,对原始模型进一步改进,获得具有局部不变性的特征。
最后,采用更加接近人类视觉特性的log-gabor小波,结合Dirk Walther提出的自上而下视觉注意机制构建一个反馈模型,将注意力集中到与目标相关的特征上,去掉背景造成的干扰信息。最后,通过采用Caltech数据库中的图片,将改进模型与标准模型进行分类任务的性能比较,实验表明,改进模型在识别率和运算速度上都有不同程度的改善。