收藏本站
《广西师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

高维线性模型的变量选择

李玲玲  
【摘要】: 高维数据在生物信息学、生物医学、计量经济学和机器学习等领域频繁出现,它使经典的统计方法遭受了较大的冲击,是目前统计学理论和应用研究中面临困难最多、挑战最严峻的研究领域之一。对高维数据的研究,通常情况需要假定真实模型位于一个低维空间(至少协变量维数要比样本容量低),也就是常说的稀疏性(sparsity)假定。然后再按照一定的规则选择变量进行降维。通过选择变量,将对因变量根本没有影响或者影响较小的变量剔除,保留影响较大的变量,从而建立简洁的模型。 本论文在对前人已有研究成果进行综合分析的基础上,主要考察随机误差项分布未知时的高维线性模型的变量选择问题。所采用的方法和思想主要是Fan和Lv(J.Fan,J.Lv.Sure independence screening for ultra-high dimensional feature space[J]. Journal of the RoyalStatistical Society Series B.2008,70:849-911.)的安全独立筛选(Sure independent screening,简记为SIS)方法和迭代安全独立筛选(Iterative sure independent screening,简记为ISIS)方法,与Chen,Variyath和Abraham(J.Chen,A.M.Variyath,B. Abraham. Adjusted empirical likelihoodand its properties[J].Journal of Computational and Craphical Statistics.2008,17,426-443.)的调整经验似然(AEL)方法的有机结合。从理论上进一步说明Fan和Lv的SIS方法和ISIS方法在误差项不服从正态分布时也是成立的,并且具有较好的安全筛选渐近性质。即在一定条件下可以得到:P(M? ? Mγ) = 1 - O(exp(-Cn1-2κ/log(n))),这里M?为我们感兴趣的真实稀疏模型的指标集,Mγ为自变量X与因变量Y相关性最强的前[nγ]个变量所对应下标构成的指标集,其中γ∈(0,1),1 ? 2κ 0。由此可知,对充分大的样本容量n,选择的变量包含真实变量的概率接近于1。从算法上分别给出了SIS方法、迭代SIS方法与调整经验似然有机结合的SIS+AEL算法与迭代SIS+AEL算法。SIS+AEL算法思路为:先选出与因变量相关性较强的[nγ]个变量,然后由选择出来的变量与因变量利用线性模型调整经验似然比函数,得到相应的经验似然比的AIC和BIC版本,最后通过经验似然的AIC或BIC标准寻找出最优的模型,从而完成变量选择。迭代SIS+AEL算法思路如下:先用SIS+AEL方法从x1,···,xp中得到初步的变量xi1,···,xim1,然后建立y与xi1,···,xim1之间的线性模型,接着对其残差y ? (xi1β?i1 +···+ xim1β?im1)和剩余的p ? m1个变量再应用SIS+AEL方法选择一部分变量,如此循环,直至得到我们满意的变量为止。这个算法既保留了原有方法的渐近性质,又降低了实际中对误差项的分布要求,取长补短、计算简单、想法直观。最后,我们对所提出的方法作了模拟说明。模拟结果表明,我们的算法在对高维线性模型作变量选择时,若误差项服从的是正态分布,其包含真实模型的比率与LASSO(现阶段比较流行的方法)相差不大;而对于误差项不服从正态分布时,其结果整体上要略好于LASSO。 本文特色主要体现在以下几点: 1.对已有的一些方法进行重新组合,取长补短,降低了计算的工作量,拓宽了应用的范围。 2.去掉误差项是正态分布的限制,Fan和Lv(2008)的SIS和ISIS方法尽管简单,但对误差项要求是正态分布,只有这样才能满足其相应的性质。本文从理论上说明误差项不必是正态分布,在较宽的条件下也可以得到SIS和ISIS方法相同的结论。对指标维数p降到样本容量n以下的情况,我们选择经验似然方法,无须对误差项作任何分布假定。 3.采用调整经验似然方法作变量选择克服了经验似然的一些缺陷,众所周知,经验似然在使用时有一前提约束,即参数θ构造的估计方程EFg(y,θ) = 0中,{g(yi,θ),i =1,···,n}的凸包必包含0点并且0为其一个内点。为避免此条件不满足时所引起的系统偏差,我们选用了Chen,Variyath和Abraham(2008)的调整经验似然方法。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:O212.7

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 曹芳;朱永忠;;基于多重共线性的Lasso方法[J];江南大学学报(自然科学版);2012年01期
【参考文献】
中国期刊全文数据库 前2条
1 王启华;经验似然统计推断方法发展综述[J];数学进展;2004年02期
2 张涤新,王志诚;独立的无界随机变量和的概率不等式[J];应用数学和力学;2001年05期
中国博士学位论文全文数据库 前1条
1 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 孙福杰;王倩;;回归分析在治疗爱滋病的药物选择上的应用[J];白城师范学院学报;2007年06期
2 孙福杰;陆晶;;回归分析在白城市地下水环境评价和预测中的应用[J];白城师范学院学报;2008年03期
3 段智力;倪志坤;;正态总体均值方差的经验似然比置信区间估计[J];白城师范学院学报;2009年06期
4 何书元;赵宇;房祥忠;;估计不同阶段和环境下的设备可靠性[J];北京大学学报(自然科学版);2008年03期
5 程维虎;利用样本分位数的极值分布的参数估计[J];北京工业大学学报;2002年03期
6 陈雪梅;魏中华;高利;;驾驶员转向行为与生理反应的混合效应模型[J];北京工业大学学报;2009年02期
7 任正民;张怀念;;约束条件污染数据线性回归模型的参数估计[J];北京石油化工学院学报;2012年01期
8 赵海清;;非主成份与广义岭型估计[J];纯粹数学与应用数学;2008年03期
9 黄丹宁;;英超球员能力的定量评估和预测[J];成都信息工程学院学报;2011年02期
10 肖兵;一列非线性回归模型的非线性度量[J];常德师范学院学报(自然科学版);2002年04期
中国重要会议论文全文数据库 前2条
1 钱萍;陈文华;高亮;卢献彪;马子魁;;航天电连接器综合应力可靠性统计模型的验证[A];2007年全国机械可靠性学术交流会论文集[C];2007年
2 沈岳峰;;滨海新区风暴潮与渤海沿岸诸站增水的相关性研究[A];全国优秀青年气象科技工作者学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年
2 何冰;单指标回归模型与半变系数模型的统计推断[D];吉林大学;2011年
3 吴建峰;热轧带钢调宽技术研究与优化[D];东北大学;2009年
4 高亮;航天电连接器空间环境可靠性试验与评估的研究[D];浙江大学;2012年
5 陈黎;不等式约束下的经验似然推断[D];云南大学;2012年
6 王跃宗;SLM显微立体视觉量化和三维数据重构研究[D];大连理工大学;2003年
7 毛范海;AD型喷油泵燃油喷射系统计算机建模和仿真分析研究[D];大连理工大学;2003年
8 刘琦;液体火箭发动机可靠性增长试验评定方法研究[D];国防科学技术大学;2003年
9 刘锋;部分线性模型的序列相关检验与异方差检验[D];中南大学;2006年
10 胡雪梅;半参数变系数部分线性度量误差模型中的序列相关检验和经验似然[D];中南大学;2008年
中国硕士学位论文全文数据库 前10条
1 黄逸;时间序列的经验似然拟合优度检验[D];南京大学;2011年
2 李少会;半参数空间多元回归模型两步估计及其性质研究[D];兰州理工大学;2011年
3 韩慧;关于部分线性模型的惩罚高维经验似然[D];辽宁师范大学;2011年
4 翟志荣;时间序列分析方法在我国股市预测中的运用[D];中北大学;2011年
5 饶少林;相关异方差线性模型的刀切广义岭估计[D];湖北师范学院;2011年
6 陈波;缺失数据情形估计方程统计模型的统计推断[D];广西师范大学;2011年
7 胡志明;调整经验欧氏似然及其性质[D];广西师范大学;2011年
8 夏亮;气温的统计分析及短期预测[D];华中科技大学;2010年
9 唐华;变系数模型的异方差检验[D];重庆理工大学;2011年
10 董丹;国内冶金行业继续教育现状的调查与统计分析[D];东北大学;2009年
【同被引文献】
中国期刊全文数据库 前1条
1 满敬銮;杨薇;;基于多重共线性的处理方法[J];数学理论与应用;2010年02期
【二级参考文献】
中国期刊全文数据库 前2条
1 张尧庭;线性模型与广义线性模型[J];统计教育;1995年04期
2 韦博成,林金官,吕庆哲;回归模型中异方差或变离差检验问题综述[J];应用概率统计;2003年02期
【相似文献】
中国期刊全文数据库 前10条
1 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期
2 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
3 张大仁,赵立新;遗传算法对QSAR研究中变量选择的应用[J];环境化学;2000年03期
4 严于鲜;;层次分析法在线性回归方程中的应用[J];四川理工学院学报(自然科学版);2006年05期
5 罗英姿,张洁洋;用人工神经网络研究地方经济指标[J];河南广播电视大学学报;2005年02期
6 杨璐,高自友;用神经网络进行变量选择[J];北方交通大学学报;1999年03期
7 王今,韩文秀;财务危机预警中财务比率的选择研究[J];数学的实践与认识;2003年08期
8 韩敏,林云,孙燕楠,齐东海;基于神经网络的建筑行业投标报价研究[J];系统工程学报;2003年04期
9 陈战波;耿志林;杨珂玲;;城市日用水量预测的部分线性自回归模型[J];武汉工业学院学报;2009年02期
10 温忠麟;回归变量的一种选择方法及其应用[J];云南教育学院学报;1994年05期
中国重要会议论文全文数据库 前10条
1 胡军华;蒋志刚;;环境变量选择与尺度变化对物种适宜栖息地模拟的影响:以普氏原羚为例[A];四川省动物学会第九次会员代表大会暨第十届学术研讨会论文集[C];2011年
2 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 李慷;席裕庚;;带有输出反馈的多变量控制系统中变量的选择[A];1994中国控制与决策学术年会论文集[C];1994年
4 刁宁;张永清;;改进蚁群算法在麻痹性贝毒素的QSAR中变量选择的研究[A];第五届全国环境化学大会摘要集[C];2009年
5 韩敏;林云;;用神经网络的方法进行投标报价中的变量选择[A];第二十届中国控制会议论文集(下)[C];2001年
6 黄蓉;乔园园;;指示向量选择法在QSAR研究中的应用[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
7 张俊华;方伟武;;调查表数据分析中变量选择和判别分析的一些方法及简单比较[A];面向复杂系统的管理理论与信息系统技术学术会议专辑[C];2000年
8 张永清;费红琳;丁凯;;修正CP_EA-PLS用于多环芳烃光解半衰期QSAR的研究[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
9 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
10 刘咸姝;潘日芳;;满意控制结构综合的专家系统[A];1996年中国智能自动化学术会议论文集(上册)[C];1996年
中国重要报纸全文数据库 前10条
1 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
2 左小蕾;GDP数据之析[N];经济观察报;2005年
3 海通股指期货联合研究中心 李子婧;基于BIRR模型的宏观因子套利策略[N];期货日报;2010年
4 韩万江;软件的开发过程[N];计算机世界;2007年
5 周洛华;不是发现价值,而是发现机会[N];上海证券报;2006年
6 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年
7 樊春良;政府不该资助科学,一个当代的神话[N];中华读书报;2003年
8 中研博峰咨询有限公司咨询顾问 高荣霞;六步骤锁定细分市场[N];通信产业报;2009年
9 毛小美;如何看待当前货币信贷形势[N];中国信息报;2003年
10 刘立(作者单位:北京大学科学与社会研究中心);20世纪创新研究的历史演进[N];科技日报;2001年
中国博士学位论文全文数据库 前10条
1 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年
2 盖玉洁;若干高维模型变量选择和模型重建问题的研究[D];山东大学;2011年
3 任允文;基于处罚经验似然和跳惩罚最小二乘的变量选择[D];复旦大学;2010年
4 赵为华;变系数模型变量选择的稳健方法[D];华东师范大学;2013年
5 李腾飞;似然自适应惩罚变量选择方法研究[D];复旦大学;2012年
6 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
7 吕亚召;含指标项半参数回归模型的分位数回归与变量选择[D];华东师范大学;2013年
8 陶凤梅;对应分析的数学模型[D];吉林大学;2005年
9 章文军;小波变换和神经网络在化学中的应用[D];中国科学院研究生院(长春应用化学研究所);2001年
10 袁裕泽;半参数模型和近单位根过程的统计推断[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 李玲玲;高维线性模型的变量选择[D];广西师范大学;2010年
2 徐修友;不完全数据下偏线性模型的变量选择问题研究[D];北京化工大学;2013年
3 胡俊英;基于切比雪夫损失的变量选择方法[D];西北大学;2013年
4 闫闯;多元回归模型中变量选择问题研究[D];黑龙江大学;2011年
5 鞠思秋;半参数变系数部分线性模型的变量选择方法[D];华东师范大学;2012年
6 石红亮;含缺失数据线性模型中的变量选取[D];东北师范大学;2008年
7 刘存银;基于修正经验似然的变量选择方法及其应用研究[D];华东理工大学;2011年
8 王银辉;评价线性模型中自变量选择对估计的影响[D];东北林业大学;2012年
9 肖金花;函数系数部分线性模型的变量选择[D];湖南师范大学;2012年
10 梁爱;半参数变系数部分线性测量误差模型的变量选择[D];华东师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026