收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

缺失数据下线性模型回归系数岭估计的大样本性质

董冬  
【摘要】: 在许多实际问题中,由于各种人为或其它不可知因素,都容易导致大量缺失数据的产生,例如,在民意调查、市场调研、医学研究以及社会经济研究等领域中普遍存在数据缺失现象.近年来,缺失数据情形的统计推断已成为当今统计界的一个热门研究领域.在有数据缺失的情况下,通常的统计方法往往不能直接应用,需要对数据进行必要的处理,缺失数据的处理方法常见的有Complete-Case方法和填补法, Complete-Case方法是将有缺失的数据项删除,然后对剩余的项构成的“完全样本”按照通常的统计方法进行统计推断,填补法分为固定填补法和随机填补法,它们都是对缺失值进行必要的补足,继而得到“完全样本”,再按照通常的统计方法进行统计推断. 线性模型有很强的实际应用背景,在医学,生物,经济,金融,环境科学及工程技术等领域的数据分析中得到了越来越广泛的应用,在线性模型参数估计理论与方法中,最小二乘法占有中心的基础地位,但当设计矩阵X退化或接近退化时,最小二乘估计变得很不理想,于是一些学者提出了一种新的估计方法――岭估计法,岭估计可以较好地解决设计矩阵接近退化时的统计推断问题. Hoerl和Kennard (Ridge regression biased estimation for non-orthogonal problems[J]. Tech-nometrics, 1970, 12: 55-57.)于1970年提出了岭估计β(k) = (S + kI)?1X Y用来改善最小二乘估计,其中k 0, S = X X, X和Y分别为设计变量和响应变量的资料阵, I为单位阵.岭估计的研究和应用一直受到广泛的重视且已经成为目前最有影响的一种有偏估计.岭估计理论研究的早期成果见Hoerl和Kennard (Ridge regression biased estimation fornon-orthogonal problems[J]. Technometrics, 1970, 12: 55-57.)及Farebrothers (Further result onthe mean squared error of ridge regression[J]. J Roy Statist Soc B, 1976, 38: 248-259.)的论文,岭估计理论的系统总结可见王松桂等(线性模型的理论及其应用[M].合肥:安徽教育出版社,1987;线性模型引论[M].北京:高等教育出版社, 2004.)的著作,他们给出了一系列岭估计优于最小二乘估计的充分条件.戴俭华(岭估计优于最小二乘估计的条件[J].数理统计与应用概率, 1994, 9(2): 53-58.)讨论在均方误差意义下岭估计优于最小二乘估计的问题,给出了岭估计优于最小二乘估计的必要条件及较一般的充分条件;王启应(回归系数岭估计的相合性[J].数理统计与应用概率, 1987, 3(1): 42-51.)讨论了岭估计的强相合性、r阶相合性及基于岭回归的误差估计的某些极限性质,获得了同等条件下与通常的最小二乘估计完全同样的大样本性质.大量学者对岭估计做了不同的改进,以期望缩小均方误差来提高估计的精度,对岭估计进一步做改进的文章有很多,都在不同程度上提高了估计的精度. 在有约束条件的线性模型中,正如郑昌光(约束条件下的线性估计[J].应用概率统计,1986, 2(1): 5-12.)所言,参数β的约束最小二乘估计β?的均方误差在一定条件下可以变得很大,因此效果也不理想,这就促使人们在β的有偏估计类中寻找一类合理的估计去改进β?.雷庆祝(线性模型中回归系数岭估计的相合性[J].广西师范大学学报, 1999, 10(1): 21-24.)讨论了带齐次等式Rβ= 0约束条件的线性模型中回归系数岭估计的强、弱相合性及均方相合性,得到了弱相合性的充要条件及强相合性的充分条件;史建红(约束线性回归模型回归系数的条件岭型估计[J].山西师范大学学报(自然科学版), 2001, 15(4): 10-16.)在齐次等式Rβ= 0约束条件下提出了线性回归模型的一类新的岭型估计β?(k) = (kW + I)?1β?,证明了β?(k)在一定的正则条件和优良性准则下优于参数β的约束最小二乘估计,并讨论了估计的可容许性.农秀丽,刘万荣,李明辉(非齐次等式约束线性回归模型回归系数的条件岭型估计[J].四川师范大学学报(自然科学版), 2007, 30(6): 721-725.)在非齐次等式Rβ= r约束下提出了约束线性回归模型的一类岭估计,讨论了估计的统计性质,并讨论了其与约束最小二乘估计的关系,在一定的正则条件和优良性准则下证明了参数的岭型估计优于约束最小二乘估计. 在现实生活中经常会产生数据缺失现象,但是对缺失数据下线性模型回归系数岭估计的统计推断问题尚未有研究.本文在第二章中研究了固定设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.在第三章中研究了随机设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性. 本文的特色体现在以下两个方面: 1.在MAR缺失机制下,研究了固定设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性. 2.在MAR缺失机制下,研究了随机设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张方仁 ,汪晓庆;平差参数的岭估计和压缩估计[J];武汉大学学报(信息科学版);1989年03期
2 林路;回归系数的综合岭估计[J];数理统计与应用概率;1996年03期
3 王辉;复共线条件下普通岭估计的改进[J];哲里木畜牧学院学报;1998年02期
4 汪明瑾,王静龙;岭回归中确定K值的一种方法[J];应用概率统计;2001年01期
5 雷庆祝;线性模型中回归系数岭估计的相合性[J];广西师范大学学报(自然科学版);1992年01期
6 张建军,吴晓平;线性回归模型系数岭估计的改进研究[J];海军工程大学学报;2005年01期
7 杨善朝;岭估计的高杠杆点[J];工程数学学报;1992年02期
8 李崇贵,牟玉香,赵书河;用岭估计研究不完全3维趋势面在GPS工程水准测量中的应用[J];测绘通报;1998年08期
9 程英,田保光;岭估计中的影响度量与相关系数的关系[J];四川师范大学学报(自然科学版);1999年06期
10 刘乐平;协方差矩阵扰动生长曲线模型岭估计的影响分析[J];应用概率统计;2002年03期
11 王石青;线性回归模型中优于最小二乘估计的新估计的研究进展状况[J];华北水利水电学院学报;1995年04期
12 郑昌光;一般Gauss-Markoff模型中的岭估计[J];应用数学学报;1986年04期
13 饶从军;因子分析法中因子得分的岭估计[J];西南民族大学学报(自然科学版);2004年02期
14 王石青;岭参数的上确界及岭估计优于最小二乘估计的充要条件[J];华北水利水电学院学报;1995年02期
15 范永弘;SAR图像的几何校正[J];武汉测绘科技大学学报;1997年01期
16 汪明瑾;岭参数的又一确定方法[J];江苏工业学院学报;2003年01期
17 陶靖轩;关于自变量的选择[J];信阳师范学院学报(自然科学版);1988年03期
18 林路;协方差阵扰动模型岭估计的影响分析[J];工程数学学报;1995年03期
19 于义良,赵恩光;岭估计在数据变换下的影响评价[J];山西师范大学学报(自然科学版);1994年03期
20 杨善朝;线性模型中岭估计的相合性[J];广西师范大学学报(自然科学版);1992年01期
中国重要会议论文全文数据库 前10条
1 李国重;归庆明;杜院录;张国芹;;岭估计影响分析的新方法[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 殷婷婷;朱道元;;广义线性模型的L_2罚估计[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
3 王理峰;朱道元;;多元曲线模型的几类估计及性质[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
4 郭建锋;归庆明;杜院录;李国重;;有偏估计在GPS快速定位数据处理中的应用研究[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
5 赵大炜;;基于BR方法的战略导弹制导系统工具误差模型辨识[A];2000中国控制与决策学术年会论文集[C];2000年
6 胡志刚;;一种新的Tikhonov正则化参数优化选取方法及其在测量中的应用[A];中国测绘学会九届四次理事会暨2008年学术年会论文集[C];2008年
7 胡志刚;;一种新的Tikhonov正则化参数优化选取方法及其在测量中的应用[A];第十届中国科协年会论文集(一)[C];2008年
8 刘乐平;;生长曲线模型在地质矿藏预测中的应用[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
9 朱宁;李建军;李兵;;一种有偏岭-压缩组合估计的新形式[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
10 宫轶松;韩松辉;姚绍文;归庆明;;r-k估计中偏参数的选取[A];中国现场统计研究会第12届学术年会论文集[C];2005年
中国博士学位论文全文数据库 前7条
1 李崇贵;用非线性理论研究以“3S”为基础的森林蓄积定量估测[D];中国林业科学研究院;2001年
2 王伟玺;基于广义立体像对的三维重建方法研究[D];辽宁工程技术大学;2007年
3 徐建文;线性模型参数的约束有偏估计和预检验估计研究[D];重庆大学;2009年
4 王振杰;大地测量中不适定问题的正则化解法研究[D];中国科学院研究生院(测量与地球物理研究所);2003年
5 常新锋;线性模型参数有偏估计的若干研究[D];重庆大学;2011年
6 瞿思敏;抗差理论在洪水预报中的应用研究[D];河海大学;2004年
7 鲁铁定;总体最小二乘平差理论及其在测绘数据处理中的应用[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 蓝文英;半参数可加模型的岭估计[D];中央民族大学;2013年
2 来园莉;关于岭估计的若干问题研究[D];武汉科技大学;2010年
3 杨婷;关于有偏估计若干问题的进一步研究[D];重庆大学;2002年
4 周瑾;因子得分的岭估计和主成分估计[D];武汉理工大学;2005年
5 钟震;线性模型中的约束型有偏估计的研究[D];重庆大学;2005年
6 曹枫林;多元线性模型的参数估计[D];武汉科技大学;2006年
7 邵华;线性模型影响分析的若干研究[D];重庆大学;2008年
8 何秀丽;多元线性模型与岭回归分析[D];华中科技大学;2005年
9 董冬;缺失数据下线性模型回归系数岭估计的大样本性质[D];广西师范大学;2010年
10 方芳;生长曲线模型中回归系数的参数估计[D];东南大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978