双向循环神经网络在GNSS坐标时间序列插值中的研究
【摘要】:在GNSS观测站的长期观测中,因接收机故障、卫星异常及后续粗差剔除等因素,导致观测数据不可避免地出现缺失,影响数据的关联性及进一步的主成分分析、频谱分析等,因而对GNSS坐标时间序列的缺失数据进行插值补全具有十分重要的意义。对于时间序列插值问题,已有研究较为丰富,但常用的传统插值法、经验正交函数法、奇异谱分析法等时间序列插值方法,仍然存在一些不足:对于时间序列的局部特征拟合欠佳;或其适用条件严苛,不利于推广应用,易造成重建时间序列的人为失真等。本文基于双向循环神经网络模型,用于“中国大陆构造环境监测网络”中基准站的GNSS坐标时间序列插值补全研究。鉴于各观测站点普遍数据缺失严重,无法直接使用连续多个年份的完整样本数据进行模型训练,本文首先以某一观测站单个年份的完整坐标时间序列为实验样本,按照缺失序列分别位于原始序列的右侧、左侧和中部三个不同位置,设定三组对照实验。在每一对照实验下,分别进行序列连续缺失3天、6天、9天、12天、15天时的插值补全,初步验证实验模型用于序列插值补全的准确度和有效性。最后,使用经验证的有效实验模型,补全同一观测站多年份观测数据中的多处缺失,构造完整的连续多个年份的GNSS坐标时间序列样本,进一步验证实验模型在大规模样本数据下插值补全的准确度和潜能。本文通过实验,利用不同模型对所缺数据进行插值补全,通过对比研究,得出如下初步结果:(1)当研究对象为DLHA站2017年单个年份的完整坐标时间序列时,将本文模型实验结果与传统多项式插值法的结果对比表明,本文模型的最大有效插值补全天数约为9天,均方根误差更低,且能够较好地拟合出缺失片段的局部波动趋势,因而初步验证了实验模型用于序列插值补全的准确度和有效性。(2)当研究对象为DLHA站多个年份坐标时间序列时,基于单个年份样本数据验证的有效实验模型,补全多年份观测数据中的多处缺失。连续多年份的样本规模下,实验结果表明,当GNSS坐标时间序列连续缺失天数达30天时,本文实验模型的均方根误差为2.640 mm,预测曲线依然能够拟合出原始曲线的局部波动趋势特征。对比相关文献实验结果,其使用单层循环神经网络插值补全连续缺失为31天序列的均方根误差为3.429 mm,显然本文模型误差水平更低,具有一定的可靠性。