图像深度估计算法研究
【摘要】:对客观世界三维场景的感知和重建是计算机视觉领域的重要研究方向,获取图像深度信息可以使得计算机更准确地从二维图像中认知、模拟真实三维场景,从而服务于计算机视觉领域其他任务的研究以及自动驾驶、虚拟现实等工业领域的应用。由于普通成像设备只能获取二维图像,缺失深度信息,而现有的深度采集硬件受到感知距离有限、深度估计值稀疏、造价昂贵等因素的限制,很难广泛应用。因此,论文将围绕如何准确高效地从一幅或多幅二维平面图像中估计出深度信息这一问题进行全面研究。论文首先调研并阐述了单目、双目深度估计的研究趋势和原理模型;其次,分别针对双目深度估计的核心问题,即立体匹配,以及单目深度估计的核心问题,即像素级的回归、分类,分别展开研究讨论。在双目深度估计任务中,针对现实环境中最常见的亮度差异较大的立体匹配问题,提出了基于多亮度图层的遗传优化立体匹配算法;并且分析了卷积神经网络在双目立体匹配的应用,提出了快速空洞多尺度立体匹配卷积神经网络算法;在单目深度估计任务中,讨论其与语义分割任务的内在关系,将深度估计由回归问题转化为分类问题,提出一种基于空间金字塔上采样模块的编码解码结构实现单目图像深度信息预测。针对这些研究内容的主要创新点包括:1.提出了一种基于多亮度图层的遗传优化立体匹配算法。算法首先根据图像直方图拟合曲线的局部极值建立和匹配多亮度图层,并在匹配图层对上进行立体匹配和特征点匹配,以此减弱亮度差异。接着提出快速分割局部立体匹配算法,利用其它步骤需要进行特征点匹配的便利,结合尺度不变特征点(Scale-invariant feature transform,SIFT),用高密度特征点间距代替固定的视差搜索范围,提升了立体匹配准确度且加快了计算速度。在此基础上结合改进的立体匹配遗传优化算法,将多个由亮度图层对得到的视差图作为基因,设置连续性与准确性适应度函数和符合立体匹配特点的交叉、突变操作。在Middlebury和KITTI数据集上验证结果表明,多亮度图层机制可以削弱80%以上的平均亮度差异对立体匹配的影响;在不同光照、视差、旋转、放缩条件下,对比尺度不变特征变换多目标适应度函数遗传算法,深度估计准确率提高了4%以上、计算时间减少34%以上。2.提出了一种快速空洞多尺度卷积网络立体匹配算法。算法使用卷积神经网络进行立体匹配代价初始化计算,针对小卷积核覆盖到的特征区域较小这一缺点,使用空洞卷积核在少量增加参数的基础上提高立体匹配准确性;并使用多尺度网络结构,在不同的尺度上分别计算损失函数,进一步提高匹配准确度。提出权重多级、点积复合损失函数网络结构,并结合深度可分离卷积操作,使神经网络计算速度大幅提升。权重多级复合损失函数针对多尺度网络,并将占用时间较大的全连接层替换为直接点积变换计算损失函数,可大幅减小网络参数,降低计算时间。在KITTI数据集上验证结果表明,对比同类卷积网络立体匹配最优算法,深度估计错误率最大减小了0.17%、计算速度提高了6倍左右。3.提出了一种基于空间金字塔上采样机制和分类策略的单目深度估计编码解码算法。首先提出了一种具有学习能力的空间金字塔上采样机制,将上采样和多尺度特征提取功能整合在一个模块中,比非学习方法的上采样更多地利用了数据间互信息。并设计了一种单目深度估计编码解码框架,编码器使用密集连接Dense Net提取特征,解码器使用级联的空间金字塔上采样模块恢复图像,并结合瓶颈结构(Bottleneck)和深度可分离卷积(Depthwise Separable Convolution,DSC)操作简化整体框架参数量,提高估计效率。在NYU Depth V2数据集中验证结果表明,对比同样采用分类策略的软权值推理扩张残差网络算法,深度估计平均相对误差减少了2.4%。在Make3D数据集中验证结果表明,对比采用回归策略的全卷积残差网络算法(Fully Convolutional Residual Networks,FCRN),深度估计平均相对误差减少了5.7%。