随机缺失数据下的分位数回归
【摘要】:在医药临床研究、生存性与可靠性分析等领域的统计分析过程中,经常遇到截断、删失等缺失数据。数据的缺失为统计分析与决策带来了极大的困难,也是造成统计信息不确定的主要原因之一。因此,如何利用缺失数据进一步挖掘原始数据的全部信息具有重要的研究意义。参数非线性回归模型在完整数据下的研究成果已经较为完善,而在缺失数据下的统计分析还有待进一步发展。本文在截断和删失等缺失数据情形下,研究了参数非线性回归模型的统计推断问题,主要工作内容如下:针对右删失数据,研究了响应变量随机删失的非线性回归模型的参数估计问题。首先,利用Kaplan-Meier估计定义权重,将逆概率加权方法和分位数回归方法相结合,给出了回归参数的加权分位数估计。其次,在适当假设条件下,给出了所提估计的相合性和渐近正态性。最后,利用数值模拟方法考察所提估计的有限样本性质。其中将所提估计与完整数据下的分位数估计、右删失数据下的一般分位数估计进行对比。结果显示,所提估计与完整数据下的分位数估计结果相近,且比删失数据下的一般分位数估计更加有效。针对左截断数据下的非线性回归模型,提出了加权分位数估计方法,其中利用Product-Limit估计定义权重来处理左截断缺失数据。同时,为避免分位数回归模型要求模型误差的条件分位数为零,以及估计效率与分位点选取密切相关等弊端,进一步提出了同时考虑多个分位点作用的加权复合分位数估计。并在一定假设条件下,证明了所提估计方法的一致性和渐近正态性等大样本性质。最后通过数值模拟方法验证加权分位数估计和加权复合分位数估计的有限样本性质。仿真结果表明,在左截断缺失数据下,加权分位数估计是渐近无偏的,且加权复合分位数估计具有比加权分位数估计更加精确的参数估计结果,即更小的估计误差。