Huber回归的去中心化分布式估计
【摘要】:大数据时代下,数据集的规模迅速扩大,传统的统计推断方法受到了严峻的挑战。受分治思想的启发,研究人员专注于分布式的统计推断和参数估计方法,传统的中心化分布式算法设置一个中心机器和若干个子机器,在每次迭代优化过程中都需要将子机器的信息传递至中心机器上统一处理后,再分发到各个子机器进行信息的更新。为了进一步考虑数据隐私保护和数据传输成本,研究人员将目光聚焦到去中心化分布式算法中,在去中心化场景下,机器之间通过图结构来表征连接关系,每个机器只接受相邻的机器的信息用来参数更新。目前已有大量的研究围绕中心化分布式统计模型,相对比去中心化下分布式的统计研究相对较少。稳健统计是统计参数估计中的重要研究话题,在分布式的场景中,某个机器的本地数据集中往往存在异常值干扰模型的学习,如果没有稳健的统计推断方法,那么机器的错误信息将会被传递给与其相邻的机器,进而影响到其他机器的更新。Huber回归在稳健推理和估计中发挥着重要作用,因此在分布式框架下研究Huber回归的参数估计是重要的研究话题。Luo等人将Huber回归拓展到中心化分布式框架中,证明了中心化分布式的Huber回归的参数估计能够收敛到全局最优参数估计。然而如何在去中心化的分布式场景下研究Huber回归的参数估计问题有待解决。本文研究去中心化分布式场景下,Huber回归的参数估计问题。本文在公式推导的基础上,提出加权网络梯度下降(Weighted Network Gradient Descent,WNGD)算法,同时在理论上证明了算法以O(~1_(√N))收敛到全局最优参数估计。在本文的实验部分,我们设计了模拟数据实验、鲁棒性实验和真实数据实验。我们通过模拟数据实验,探究不同算法参数对算法收敛的影响,验证了WNGD算法能够达到线性收敛。我们也通过对比在Huber损失下,WNGD算法与NGD算法的收敛曲线,验证了WNGD算法能够更加快速的收敛到全局最优估计且误差更小。我们通过鲁棒性实验,发现基于Huber损失的WNGD算法在每台机器上的误差更小,明显优于平方损失,并且表明随着异常值比例的增大,算法的误差也随之增大。我们通过真实数据实验,使用king_county房屋销售数据集,验证了基于Huber损失的WNGD算法能够收敛到全局最优估计,并且相比基于Huber损失的中心化梯度下降方法有更好的收敛效果。