收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

几种缺失数据和高维数据模型的统计分析

祝丽萍  
【摘要】:在社会调研、生物医学、经济管理等领域中,由于种种原因,常常会收集到大量的缺失数据,另一方面,在基因生命科学、金融数学等领域中,随着科技的发展可以获得的数据维数越来越高,又会频繁出现大量的高维数据。数据缺失的复杂性和数据的高维特性使得传统的统计方法不再适合,于是,如何在数据缺失或者高维的情况下进行有效的统计推断引起了很多学者的关注。对于缺失数据,在近80年的研究过程中取得了很多的研究成果,一系列处理缺失数据的有效方法被提出(见Rubin和Little(2002),Cao(2009)等)。对于高维数据,由于数据本质上往往都是稀疏数据,因而变量选择问题成为高维数据的核心问题之一,特别是近几年,高维数据的变量选择成为了统计界的热点之一.一系列有效的变量选择方法被提出(见Fan和Lv(2010),Candes和Tao(2007)等)。然而,对于缺失数据下统计推断方法以及高维数据下变量选择方法的研究还不够充分。为此,本文进一步研究了缺失数据下线性泛函、估计方程的统计推断问题、估计方程的冗余性问题以及高维数据下的变量选择问题。 线性泛函包括变量的均值,高阶矩及混合高阶矩等,对它的统计推断是统计中重要的问题之一。第二章我们研究了数据缺失下线性泛函的估计问题。通常会用条件期望的估计来补充缺失数据,条件期望可能被假定为参数或者非参数结构,但是前者会产生模型误定风险,后者会产生非参数高维问题。由于在处理缺失数据下均值的估计中,Hu.Follmann和Qin(2010)提出了均值函数的可修复条件,通过构造多元函数把高维数据映射为一维数据,然后再进行非参数回归插补,这样既有效的避免非参数估计的高维问题,又保证了插补的回归函数的估计是无偏的。受此启发,我们提出线性泛函的可修复条件,用同样的办法得到缺失数据下响应变量和协变量的线性统计泛函的半参数降维推断,并考察了估计的相合性和渐近正态性,数值模拟也进一步验证了此方法的在偏和方差上的优势,从而有效地解决了一类统计推断问题。 很多传统统计推断方法例如最小二乘法、最大似然等方法等都可以归结为一个基于估计方程的统计推断问题,因而对估计方程的统计推断具有一定的普适性,近20年来得到了越来越多的关注.但是在缺失数据下有关估计方程的文献不多见.值得一提的是Wang和Chen(2009)和Zhou, Wan和Wang(2008)两篇文章,前者用分布函数估计后抽样获得缺失数据,插补到估计方程后取平均值后再作为插补部分的估计方程,其实是估计函数的条件均值的非参数估计,而后者直接估计函数的条件均值非参数估计来插补估计函数,两者插补的估计函数都是无偏的,但是相应的经验似然比都不收敛于标准卡方,而是卡方变量的加权和,其中的权重是未知的,这会对找置信区间造成一定的困难.分析其原因,主要是他们采用了相同的利用插补估计函数的方法-部分插补法即数据完全的用原估计方程,数据缺失的用插补估计方程.为此,第三章的主要工作就是将逆概率加权以及推广的逆概率加权方法应用到缺失数据下估计方程的统计推断中,分析了相应估计的相合性和渐近正态性,似然比统计量的渐近性质,结果表明,两种估计的渐近结果基本一致;相应的经验似然比渐近卡方分布,避免了调整经验似然。模拟实验也进一步说明我们的方法的优势。 在缺失数据下一般估计方程的经验似然参数估计中出现了一类奇异现象,即用选择概率函数估计加权要比用真实的选择概率函数好,甚至选择概率函数是已知的(Qin, Zhang和Leung(2009)),同时,由于在实际问题中,可以构造许多估计方程,因而随之而来的问题是增加估计方程是否就一定可以增加兴趣参数估计的效.为此,第四章我们提出了估计方程的冗余性和偏冗余性以及参数的冗余性的概念,考察了各种情形下经验似然估计的效,给出了冗余性的等价条件,并解释了上述奇异现象。模拟实验更进一步的说明估计方程的冗余性现象. 高维数据的变量选择是当今统计研究的热门之一,主要方法就是基于线性模型惩罚类降维方法(Fan和Lv(2010))和基于线性规划类降维方法(Candes和Tao(2007)).前者主要基于线性模型然后再加上各种对参数的惩罚条件如lasso等,后者主要是基于统计相关性约束下求参数的范数最小化问题即dantzig估计等.由于后者在算法上的优势,自问世以来就受到很多关注,但是除非满足不可表达的条件,Dantzig估计模型选择不一致,另一方面,对于重要的和不重要的变量之间存在很强的相关性的时候,dantzig估计效果一般不好.为解决这两个问题,第五章提出对dantzig估计的进一步改进,一方面提出了基于岭和dantzig结合的岭dantzig估计,另一方而,提出基于bootstrap模型选择一致性的dantzig估计,基本思想就是重要的变量被选择的概率总是会大,基于重抽样数据选择出变量的交集是重要变量的概率较大.数值模拟和实证分析显示了我们所提出的两种方法的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 廖慧敏;林燧恒;;数据缺失机制对逐步回归变量筛选的影响[J];中国卫生统计;2011年04期
2 李开灿;有缺失数据的2×2×2列联表的参数估计[J];数理统计与管理;2003年02期
3 孙凤;;微观计量分析中缺失数据的极大似然估计[J];数量经济技术经济研究;2005年11期
4 李佳宁;;有缺失数据的双向有序方列联表统计推断[J];大连交通大学学报;2007年02期
5 庞新生;;分层随机抽样条件下缺失数据的多重插补方法[J];统计与信息论坛;2009年05期
6 赵慧秀;马文卿;;带有缺失数据的估计方程[J];曲阜师范大学学报(自然科学版);2009年03期
7 裴晓换;任娜;付小君;;具有缺失数据的2个几布总体的估计和检验[J];纺织高校基础科学学报;2010年03期
8 廖娟芬;黄绍军;李春红;;具有部分缺失数据的异均值方差分析法[J];海南师范大学学报(自然科学版);2011年01期
9 李乃医;李永明;;缺失数据下带有讨厌参数的经验似然比置信区域[J];统计与决策;2011年08期
10 祝丽萍;邵伟;;缺失数据下的线性泛函的半参数降维推断[J];山东大学学报(理学版);2011年04期
11 金勇进;缺失数据的插补调整[J];数理统计与管理;2001年06期
12 朱五英;;具有部分缺失数据两个几何分布总体的估计[J];安徽师范大学学报(自然科学版);2008年01期
13 张香云;;Gibbs抽样在不同缺失率下的参数估计[J];统计与决策;2008年04期
14 张香云;张秀伟;;不同缺失率下EM算法的参数估计[J];数理统计与管理;2008年03期
15 赵志文;刘银萍;;具有部分缺失数据的两个幂分布总体参数的估计与检验[J];吉林师范大学学报(自然科学版);2008年03期
16 邹凤;韦程东;;缺失数据下非参数模型均值估计的两个结果[J];广西师范学院学报(自然科学版);2009年02期
17 陈菲;刘玉春;;具有部分缺失数据时两个Weibull总体的估计和检验[J];吉林师范大学学报(自然科学版);2010年01期
18 赵志文;付志慧;;具有部分缺失数据的两个瑞利分布总体参数的估计与检验[J];北华大学学报(自然科学版);2008年03期
19 赵志文;王思洋;王瑞庭;李玲;;定时截尾下具有部分缺失数据两个指数总体参数的估计与检验[J];吉林大学学报(理学版);2009年01期
20 赵志文;宋立新;刘银萍;;具有部分缺失数据的两个几何分布总体参数的估计与检验[J];统计与决策;2010年05期
中国重要会议论文全文数据库 前10条
1 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 张香云;;基于EM算法缺失数据下混合模型的参数估计[A];第十三届中国管理科学学术年会论文集[C];2011年
4 曾莉;张淑梅;辛涛;;IRT模型中缺失数据处理方法比较[A];第十一届全国心理学学术会议论文摘要集[C];2007年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 廖学清;吕强;;试析数据缺失下学习贝叶斯网中初始网络的选择[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 孙玲;刘浩;袁长亮;;北京市城市快速路微波检测缺失数据分析[A];2008第四届中国智能交通年会论文集[C];2008年
8 孙玺菁;司守奎;刘超;;支持向量机在缺失数据样本分类上的应用[A];第25届中国控制会议论文集(中册)[C];2006年
9 钱伟民;王娟;;线性混合效应模型中随机效应密度的非参数估计[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
10 肖进;贺昌政;;面向缺失数据的客户价值区分集成模型研究[A];中国企业运筹学[2010(1)][C];2010年
中国博士学位论文全文数据库 前10条
1 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年
2 夏玮;几类数据下部分性单调回归模型的统计推断[D];中国科学技术大学;2013年
3 王睿;胃食管反流病流行病学调查及其缺失数据的处理方法研究[D];第二军医大学;2009年
4 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年
5 赵培信;半参数变系数部分线性模型的统计推断[D];北京工业大学;2010年
6 孙静;若干非参数和半参数模型的稳健估计和特征筛选[D];山东大学;2013年
7 郑术蓉;线性不等式约束下的EM算法[D];吉林大学;2004年
8 阎小妍;基于胃肠疾病流行病学调查数据的结构方程建模研究[D];第二军医大学;2009年
9 程皖民;基于小子样复杂信息集的可靠性评估方法及其应用研究[D];国防科学技术大学;2006年
10 孙志猛;复杂数据下半参数单调回归模型的估计[D];北京工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 田霆;定时截尾缺失数据下指数分布的统计推断[D];华中科技大学;2004年
2 贾博婷;具有缺失数据的整值自回归模型的统计推断[D];吉林大学;2011年
3 赵丽;缺失数据模型的逆概率加权的双重稳健估计[D];山东大学;2010年
4 齐化富;缺失数据下两类回归模型的经验似然推断[D];广西师范大学;2006年
5 李长军;基于贝叶斯网络的中医医案数据挖掘[D];厦门大学;2008年
6 李佳宁;有缺失数据的双向有序方列联表的统计推断[D];东北师范大学;2005年
7 石红亮;含缺失数据线性模型中的变量选取[D];东北师范大学;2008年
8 刘锴明;代价敏感的缺失值填充若干问题研究[D];广西师范大学;2010年
9 谢易林;随机缺失下自适应变系数模型的相关估计与性质[D];湖南师范大学;2010年
10 董冬;缺失数据下线性模型回归系数岭估计的大样本性质[D];广西师范大学;2010年
中国重要报纸全文数据库 前10条
1 刘若帆宋林;诗邦金A6+1:凭借其质提高其量[N];农资导报;2008年
2 记者 刘苏华特约记者 宋林;金沂蒙生态肥业召开2008经销商年会[N];农资导报;2008年
3 崔昕;带着经验前行[N];中国医药报;2005年
4 姜明;天津:万名职工评工会[N];工人日报;2005年
5 刘苏华宋林;树品牌 拓市场 求实效[N];中华合作时报;2008年
6 合水县人行 王风霞;基层金融统计数据集中工作中存在的问题及建议[N];陇东报;2007年
7 记者 靳晓磊;2月份扬尘污染综合整治考核公示[N];石家庄日报;2009年
8 王振权;抽样调查数据的质量控制[N];中国信息报;2009年
9 北京大学教育学院 马莉萍 丁小浩;就业因素中的社会关系[N];中国教育报;2010年
10 葛新权 北京信息科技大学经济管理学院;实验经济学需要与其他经济理论相结合[N];中国社会科学报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978