若干复杂数据模型的经验似然和复合推断方法
【摘要】:作为一种非参数统计方法,经验似然自Oweb(1988)年提出以来已经得到越来越多的关注.它已经广泛用于构造兴趣参数和光滑函数的置信区域.许多文献表明相比于正态逼近方法,经验似然方法有许多的优势.比如,由经验似然构造的置信区域其形状完全由数据决定,而且还具有域保持性和变换不变性.如今,作为一种重要的非参数统计方法,经验似然已经成为非常有用的统计推断工具.许多学者已经把它应用到线性模型,非参模型及半参模型中.在许多的应用领域,比如工农业生产、社会调查、经济学、生物医学和流行病学等领域,常常遇到纵向数据、测量误差数据,缺失数据等复杂数据.如何处理这些复杂数据进而进行有效的统计推断已经成为当今统计界的研究热点之一.因此:研究复杂数据下的半参数模型的统计推断有着一定的理论意义和实用价值.本学位论文创新点之一是应用经验似然方法研究复杂数据下半参数模型的统计推断,进而丰富经验似然方法的应用领域.
近年来,半参数模型由于其灵活性和可解释性得到了很好的研究及广泛的应用.在半参数模型中,变系数部分线性模型和可加部分线性模型是两类常用的模型,这两类模型既能够有效地避免了非参数模型的维数灾难问题,又都具有线性模型的可解释能力.基于此,在本学位论文的第二章我们把经验似然方法应用到纵向数据下半参数可加部分线性测量误差模型的估计问题中.我们在第三章考虑响应变量缺失时纵向数据下半参数变系数部分线性测量误差模型的经验似然推断.
纵向数据下可加部分线性测量误差模型具有下面的形式:其中Yij是第i个个体响应变量Y的第j次观测值,Xij是第i个个体协变量x∈RP的第j次观测值,Zij=(Zij1,...ZijD)T是第i个个体协变量Z∈RD的第j次观测值,f1,...,fD是未知函数,β=(β1,...,βp)T是p-维的未知参数向量,εij是随机误差,满足在给定Xij和Zij条件下均值为零.Uij是均值为零的测量误差,满足E(Uij)=0和Cov(Uij)=∑uu,并且与(Xij,Zij,Yij)独立.为简单起见,我们研究D=2的情况.为保证非参函数的可识别性,假设E{f1(Z1)}=E{f2(Z2)}=0,同时假设X和Y已中心化.创新点是通过对衰减的修正(correction-for-attenuation),我们得到了未知参数β基于纠衰(corrected-attenuation)下的辅助随机变量作为其估计函数,然后定义相应的基于纠衰的分块经验似然比函数,证明了相应统计量极限分布是标准卡方分布,因此基于该统计量可以得到未知参数的置信区域.模拟结果表明:通过比较置信区域的覆盖概率和平均长度,我们提出的方法要优于Liang,Thurston,Duppert,Apanasovich和Hauser(2008)提出的截面最小二乘方法.基于参数β的分块经验似然比统计量,得出其极大经验似然估计β,进而得到非参函数修正的后拟(backfitting)估计.因此,对非参函数我们又给出了其残差调整的经验对数似然比统计量.并证明它仍具有非参的Wilks定理.值得一提的是在对非参函数f1(z1)进行推断时并不需要精确估计非参函数f2(z2)在任意点的值,只需知道f2(z2)修正的后拟估计在样本观测点处的值即可.
类似第二章的思想,在第三章研究纵向数据下响应变量缺失时半参数变系数部分线性测量误差模型的经验似然推断,假定观测数据{Yij,Zij,Uij,Wij,δij,i=1,...,n,j=1,...,nj}为来自下述模型的一个不完全随机样本.其中Yij是响应变量第i个个体第j次观测值,Zij,Xij和Uij是协变量第i个个体第j次观测值.β=(β1,...,βp)T是p-维未知参数向量,α(·)=(α1(·),...,αq(·))T是q-维未知的函数系数向量,εij是第i个个体中第j次观测的误差.满足条件E(εij|Xij,Zij,Uij)=0,var(εij|Xij,Zij,Uij)=(σ2.E(Vij)=0和Cov(Vij)=Σuv.另外,协变量Xij,Zij和Uij可以完全观测.并且当δij=1时,Yij可以观测,δij=0时Yij缺失.我们首先构造未知参数的纠衰的分块经验对数似然比统计量,然后证明提出的统计量其极限分布为一卡方分布.基于这一理论,我们得到参数分量β的置信区域.模拟结果表明,通过比较置信区域的覆盖率和平均长度这两个方面,我们提出的经验似然方法要优于最小二乘方法.
分位数回归作为一种稳健的估计方法,在数量经济学,社会科学以及生物医药等各个领域中都有广泛的应用:分位数回归方法的优点是它对误差的二阶矩没有要求;它的不足之处在于分位数回归估计的效率有时会很低.Zou和Yuan(2008)在线性模型的背景下提出一种新的参数估计方法,称之为复合分位数回归(composite quantile regression,CQR)方法;复合分位数回归方法一方面继承了分位数回归方法的稳健性,另一方面显著地改进了分位数回归估计的效率.复合分位数回归方法假设不同的分位数水平对预测变量的影响相同,差别仅在截距项.与经典的最小二乘方法相比,复合分位数回归估计对异常值不敏感,具有稳健性,并且在大多数情况下能够显著地改进最小二乘估计的效率.本学位论文创新点之二是:将经验似然方法与复合分位数回归方法结合,构造线性回归模型中未知参数的置信域,考虑下述线性模型:其中β=(β1,…,βp)T∈Rp是未知的回归系数向量.记0τ1τ2…τq1,bτ是ε的100τ%分位数.我们首先构造了未知参数β的两种形式的估计方程,一是基于复合分位数回归方法所得的估计方程Zil(β),一是基于逐个分位数所得的β的估计方程Zi2(β).进而构造了相应的经验似然比统计量以及极大经验似然估计,并且证明了经验似然比统计量渐近分布均为标准卡方分布.为获得高阶精确度,用光滑函数逼近分位数得分函数中示性函数,提出了光滑的经验似然方法,给出了相对应的两种光滑形式的估计方程,进而构造了光滑的经验似然比统计量Zi1h(β)和Zi2h(β),证明了相应的经验似然比统计量分布为标准卡方分布,此外,类似于Wang和Zhu(2011),证明了在一定条件下,通过Bartlett纠偏,我们提出的光滑经验似然置信域可以降为较小的收敛误差.
在第五章我们考虑·般的非参数回归模型其中Y是响应变量,T是与ε独立的一维协变量,m(T)=E(Y|T)是光滑的非参数回归函数,标准差函数σ(T)恒正.假定E(ε)=0,var(ε)=1对于上述模型,有许多估计方法可以选择.例如核估计方法,样条方法,傅里叶级数展开法和局部多项式方法;这些方法求出的估计都是线性光滑器.特别地,局部多项式方法在Fan和Gijbels(1996)的专著中有详细的介绍并在实际中得到了广泛的应用.假没{(ti,yi),i=1,...,n}是来自上述模型的一个独立同分布的随机样本,我们感兴趣的不是光滑函数m(·)本身而是它的导数m,(·)的估计,第五章主要通过复合的方法导出了m,(·)的有效估计,这也是本学位论文的又一创新点.一种复合方式是损失函数的加权局部二次复合其中ρτκ(z)=τκz-zI(z≤0),k=1,...,q为在第q个分位数位置的分位数损失函数,并且ωk≥0,k=1,...,q,∑kq=1ωk=1为权重.则m'(to)的加权局部二次复合分位数回归估计(WCQR)可以表示为m'WCQR(t0)=b1我们得出了m'WCQR(t0)的渐近偏差,渐近方差和渐近正态性.另一种复合形式是估计量的加权复合,对固定的τk,0τk1,考虑如下的局部二次非参数分位数回归:易知上述优化问题中b1的解,记作m'(τk,t0),是m'(t0)的一个估计.对于不同的τk=k/(q(?)1),k1,2,...,q,基于m'(τk,t0)的加权平均给出m(t0)的一个估计,称之为加权的分位数平均估计(WQAE),即有m'WQAE(t0)=∑k=1qωkm'(τk,t0)其中ω=(ω1,ω2,...,ωq)T为权重向量,满足条件∑kq=1ωk=1和∑kq=1xkF1(τk)=0.并且我们求得mWQAE(t0)的渐近偏差,渐近方差和渐近正态性.数值模拟表明我们提出的两种复合形式的估计在渐近相对效率方面要优于局部二次最小二乘估计.