收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题

刘旭  
【摘要】:本文主要考虑带有非光滑辅助信息的情况在完全和缺失数据下的分布估计、参数估计、变量选择等问题.在统计推断时,有可能利用的信息不够充分,如在考虑最小二乘估计时,可能还知道误差分布关于0对称或方差为均值的函数,但在推断中并没有使用这些有用的信息.我们经常可以把这类辅助信息看成无偏估计方程,这个估计方程有时候是光滑的,如方差为均值的函数;但有时候是非光滑的,如中位数、样本分位数、分位数回归等等.这些非光滑信息不仅仅出现在完全数据下,还有可能出现在各种不完全数据下,如缺失数据、删失数据等. 由于辅助信息一般较多,但不能随意组合,或由于方法的缺泛未能很好地使用,本采用构造估计方程的方法,再利用估计方程估计思想对不同的辅助信息赋予不同的权重,从而改善或提高分布和其它参数的估计效率.已有的研究表明带权重的分布估计比经验分布估计(均匀权重)的效率有很大的提高.所以本文采取估计方程手段来构造带权重的分布估计.估计函数是参数和随机变量的某个函数,其期望为0,如E[φ(Y X,θ)]=0,即称函数φ(Y X,θ)是无偏估计函数,对应的方程称无偏估计方程.对一般的估计方程,主要考虑参数个数多于方程个数的情况,这也称为过度识别.过度识别问题,在经济金融,生物医学等领域都是很频繁出现的.所以发展估计方程的研究是很有必要的,其广泛的应用也是显而易见的. 对于光滑的估计方程,在各种数据类型下都有很多文献研究.但是在实际中,大多数估计函数并不是光滑的,如果我们研究辅助信息为误差的分布关于0点是对称的,则可以考虑一个中位数回归问题.但这样构造的估计函数是非光滑的,之前的那些方法就会失效,本文将应用一种核光滑技术去光滑化这些非光滑估计函数.较系统的研究了基于非光滑估计方程的分布估计,以及它们的一些渐近性质和小样本下的模拟结果.本文还考虑了缺失数据下,对于非光滑估计方程,如何构造基于观测数据的渐近无偏估计方程.并详细地讨论了基于经验似然方法的参数估计和分布函数估计的渐近性质. 模型选择一直都是统计中最重要的问题之一.在高维统计建模和应用计量经济分析等重要问题中,模型选择是统计推断的重要基础.特别是随着科技的发展,数据的维数将是越来越大,这就要求寻找比较有效的方法处理高维数据,其中变量选择也就被频繁的讨论.本文考虑有辅助信息出现的情况下变量选择问题,采用SCAD惩罚函数,分别提出了惩罚的广义矩估计(GMM)和惩罚的经验似然估计(EL).给出了估计的相合性和Oracle性质.结合MM算法,通过数值模拟得出辅助信息对变量选择的准确性有很大的提高. 对疾病发生因素的研究,Case-control研究是一个很重要的方法.在生物医学,特别是在临床医学中有很多研究.很多文献考虑了Case-control研究下的线性Logistic回归模型.本文将线性的Logistic模型推广到变系数模型下.变系数模型克服了参数模型和参数方法不够灵活,容易导致模型误判,以及非参数模型的难解释性,并且在高维数据情况下,会出现所谓的维数祸根等缺点.利用Case-control实验的特性获得了辅助信息,把这个辅助信息看做无偏估计方程.本文根据估计方程的思想提出了一种局部经验似然方法,给出了函数系数的一个相合估计,并给出其渐近正态性. 文章主要分为六章,各章的摘要如下. 第一章主要是简单地介绍研究背景和研究现状. 第二章研究了缺失数据下的基于光滑估计方程的分布估计.对于缺失数据,虽然已有很多文献讨论过分布函数的估计,但很少有文献在带有辅助信息的估计方程下考虑分布函数的估计.本章提出了带有辅助信息的缺失数据的估计方法.我们运用核光滑的估计方程插补法来插补缺失数据,从而降低缺失数据带来的不利影响.这样我们就可以运用辅助信息来估计概率分布函数以及该分布函数的第τ个分位数.从而可以推导出分布估计量和相应的样本分位数的渐近性质.本章方法所给出的分布估计明显优于那些没有考虑辅助信息的估计.本章在最后还做了一些数值模拟来说明所提出估计量的有限样本性质. 第三章主要是讨论基于非光滑估计方程的分布估计,主要思想是结合最小二乘估计和分位数回归估计以提高分布估计的效率.本章提出了带有非光滑辅助信息的一些响应变量的分布函数的估计,本章采用一种光滑技术来处理不可微的估计函数,因此,可以基于光滑化之后的辅助信息来估计分布函数.本章所提出的带有辅助信息的分布函数的估计显著优于不带辅助信息的估计.通过一些模拟实验考察了所提出的分布估计的有限样本表现. 第四章考虑的是结合最小二乘估计和分位数回归估计,在缺失数据下提高参数估计和分布估计的效率.采用第三章所提到的光滑技术和第二章所用的插补法构造一个渐近无偏的估计方程.由基于经验似然方法所得到的估计仍然是相合的、渐近正态的.还给出了响应变量的分布估计并讨论了其渐近性质.最后给出了一些数值模拟以考察所给估计的小样本性质. 第五章基于带有非光滑信息的估计方程,利用SCAD惩罚提出了惩罚的经验似然估计和惩罚的广义矩估计.应用前几章所提到的光滑技术处理非光滑估计方程.给出了两种惩罚估计的相合性、渐近正态性以及所谓的Oracle性质.给出了惩罚的广义矩估计的数值模拟,解释了小样本下的惩罚的广义矩估计的一些性质,与惩罚最小二乘估计相比较,惩罚的广义矩估计明显优越性. 第六章主要研究的是Case-control研究下的变系数Logistic回归模型.利用Case-control的特性,获取有用的辅助信息。本章通过局部经验似然方法给出了变系数Logistic回归模型的函数系数的非参估计.在某些正则条件下,这些估计是相合的、渐近正态的.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨维珍;赵培信;;缺失数据下部分线性模型的变量选择[J];统计与决策;2010年23期
2 赵慧秀;马文卿;;带有缺失数据的估计方程[J];曲阜师范大学学报(自然科学版);2009年03期
3 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期
4 孙道德;再论线性模型自变元选择的BIC方法相容性条件[J];高校应用数学学报A辑(中文版);1995年01期
5 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
6 李乃医;李永明;;缺失数据下带有讨厌参数的经验似然比置信区域[J];统计与决策;2011年08期
7 张大仁,赵立新;遗传算法对QSAR研究中变量选择的应用[J];环境化学;2000年03期
8 严于鲜;;层次分析法在线性回归方程中的应用[J];四川理工学院学报(自然科学版);2006年05期
9 罗英姿,张洁洋;用人工神经网络研究地方经济指标[J];河南广播电视大学学报;2005年02期
10 祝丽萍;;缺失数据下经验似然的冗余性问题[J];山东大学学报(理学版);2011年06期
11 杨璐,高自友;用神经网络进行变量选择[J];北方交通大学学报;1999年03期
12 王今,韩文秀;财务危机预警中财务比率的选择研究[J];数学的实践与认识;2003年08期
13 韩敏,林云,孙燕楠,齐东海;基于神经网络的建筑行业投标报价研究[J];系统工程学报;2003年04期
14 陈战波;耿志林;杨珂玲;;城市日用水量预测的部分线性自回归模型[J];武汉工业学院学报;2009年02期
15 温忠麟;回归变量的一种选择方法及其应用[J];云南教育学院学报;1994年05期
16 田益祥;GMDH建模中变量选择的方法研究[J];安康师专学报;2001年04期
17 周一星,陈彦光;城市地理研究的几个基本问题[J];经济地理;2004年03期
18 孙道德;;随机回归模型选择的简单方法及其相合性[J];应用数学;2006年01期
19 徐慧;;资本结构的变量选择[J];沿海企业与科技;2006年11期
20 张小亚;申琦;;基因表达式编程在环氧酶抑制剂定量构效关系中的应用[J];计算机与应用化学;2009年10期
中国重要会议论文全文数据库 前10条
1 胡军华;蒋志刚;;环境变量选择与尺度变化对物种适宜栖息地模拟的影响:以普氏原羚为例[A];四川省动物学会第九次会员代表大会暨第十届学术研讨会论文集[C];2011年
2 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 闫长华;张忠占;;MAR下一类线性EV模型中回归系数的估计[A];中国现场统计研究会第12届学术年会论文集[C];2005年
4 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
5 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
6 李慷;席裕庚;;带有输出反馈的多变量控制系统中变量的选择[A];1994中国控制与决策学术年会论文集[C];1994年
7 张香云;;基于EM算法缺失数据下混合模型的参数估计[A];第十三届中国管理科学学术年会论文集[C];2011年
8 刁宁;张永清;;改进蚁群算法在麻痹性贝毒素的QSAR中变量选择的研究[A];第五届全国环境化学大会摘要集[C];2009年
9 韩敏;林云;;用神经网络的方法进行投标报价中的变量选择[A];第二十届中国控制会议论文集(下)[C];2001年
10 黄蓉;乔园园;;指示向量选择法在QSAR研究中的应用[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年
2 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年
3 盖玉洁;若干高维模型变量选择和模型重建问题的研究[D];山东大学;2011年
4 陈雪蓉;复杂数据下分位数回归建模及其应用[D];云南大学;2012年
5 任允文;基于处罚经验似然和跳惩罚最小二乘的变量选择[D];复旦大学;2010年
6 李腾飞;似然自适应惩罚变量选择方法研究[D];复旦大学;2012年
7 张建华;适用于连续域多变量耦合问题的分布估计算法研究[D];兰州理工大学;2010年
8 李婷婷;半变系数模型和单指标模型的相关研究[D];重庆大学;2012年
9 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
10 赵培信;半参数变系数部分线性模型的统计推断[D];北京工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 石红亮;含缺失数据线性模型中的变量选取[D];东北师范大学;2008年
2 陈波;缺失数据情形估计方程统计模型的统计推断[D];广西师范大学;2011年
3 田霆;定时截尾缺失数据下指数分布的统计推断[D];华中科技大学;2004年
4 贾博婷;具有缺失数据的整值自回归模型的统计推断[D];吉林大学;2011年
5 赵丽;缺失数据模型的逆概率加权的双重稳健估计[D];山东大学;2010年
6 齐化富;缺失数据下两类回归模型的经验似然推断[D];广西师范大学;2006年
7 李长军;基于贝叶斯网络的中医医案数据挖掘[D];厦门大学;2008年
8 李佳宁;有缺失数据的双向有序方列联表的统计推断[D];东北师范大学;2005年
9 李玲玲;高维线性模型的变量选择[D];广西师范大学;2010年
10 刘锴明;代价敏感的缺失值填充若干问题研究[D];广西师范大学;2010年
中国重要报纸全文数据库 前10条
1 刘若帆宋林;诗邦金A6+1:凭借其质提高其量[N];农资导报;2008年
2 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
3 海通股指期货联合研究中心 李子婧;基于BIRR模型的宏观因子套利策略[N];期货日报;2010年
4 姜明;天津:万名职工评工会[N];工人日报;2005年
5 合水县人行 王风霞;基层金融统计数据集中工作中存在的问题及建议[N];陇东报;2007年
6 刘苏华宋林;树品牌 拓市场 求实效[N];中华合作时报;2008年
7 记者 刘苏华特约记者 宋林;金沂蒙生态肥业召开2008经销商年会[N];农资导报;2008年
8 中研博峰咨询有限公司咨询顾问 高荣霞;六步骤锁定细分市场[N];通信产业报;2009年
9 崔昕;带着经验前行[N];中国医药报;2005年
10 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978