基于卷积神经网络的三维物体识别研究
【摘要】:在人工智能火热的当下,深度学习方法尤其是卷积神经网络(Convolutional Neural Network,CNN)得到了大量的关注和应用。作为人工智能的重点研究领域,计算机视觉近年来得到了飞速的发展,使用模仿生物构造的CNN,二维图像领域的识别、检测和分割等任务已有了很成熟的方法。相较于二维图像领域的发展,针对三维数据的深度学习方法的研究才刚刚起步。不同于二维数据,三维数据存在着采集手段有限、数据量不足、组织形式复杂和空间开销较大等一系列问题。这些问题给使用三维数据的CNN方法带来了巨大的挑战。针对数据量不足和空间开销的问题,网络需要在提高结构特征捕捉能力的同时,控制参数量的规模,充分提取有效特征。而数据组织形式的复杂,使得三维数据的研究中无法使用一种方法来适应所有形式,因此相关研究根据数据组织形式的不同被分成了多个方向。目前,常用的三维数据表现形式有体素、点云和视图等。针对其中的体素和点云表现形式,本文首先总结归纳了目前面向这两种数据组织形式的相关深度学习方法,然后针对体素数据的特点设计了基于特征重组的CNN,使用短连接结构提高特征的利用率,提高了体素数据上的识别效果。最后针对点云数据提出了融合多尺度邻域特征的图卷积网络结构,提取点云结构特征,并与现有方法之间进行了详细的实验对比。本文主要研究工作归纳如下:(1)针对体素和点云数据的CNN方法进行了总结和分析:总结并归纳了面向体素和点云数据的CNN方法。一方面,对使用体素数据的网络面临的问题进行了分析和总结,并对现有方法的优势和不足进行了分析。另一方面,在点云数据的相关研究中分析了主流研究的趋势,对比分析了现有方法的优势和不足。(2)提出了体素特征重组网络并对比了与现有方法间的性能指标:针对体素数据分辨率受限和纹理缺失的问题,使用短连接结构提高特征复用率,精简网络参数,保证网络能够充分提取体素数据结构特征。同时结合全局均值池化,进一步抑制过拟合现象。与现有面向体素的方法对比,达到了更良好的识别效果。(3)提出了点云多尺度特征融合图卷积网络并与主流方法进行了对比:考虑点云的无序性和不规则性,使用图卷积来联合局部点集进行结构特征的提取。同时,网络采用多支路设计融合多尺度邻域特征,并通过标定技术引导网络关注点云结构中的关键点,进一步提高网络效果。最后通过可视化手段对比现有方法分析网络的有效性。