收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

若干高维模型变量选择和模型重建问题的研究

盖玉洁  
【摘要】:在过去的几十年内,随着网络的日趋发达和计算机存储功能的日益强大,人们可以搜集到金融市场,基因表达,组合化学和其他许多领域内的很多大型数据集。这些数据集通常具有很高的维数(大p,小n)。如果我们直接利用这几万或几十万甚至更多的变量来建模的话,成本会非常高,而且预测效果也会很差。变量选择就是一种从这些变量中选择重要的相关变量来达到稳健建模的技术。 本文主要考察了两个方面的问题:变量选择和模型纠偏。一方面,我们研究了种流行的变量选择方法Dantzig选择器的模型选择的相合性,接着我们又研究了适应的Dantzig选择器的大样本性质。二者都是在高维线性模型的背景下研究的。另一方面,对于有偏的子模型,我们通过在模型中添加一个非参项来调整子模型,从而部分地纠正了子模型的偏。 关于高维变量选择问题,已经有很多种处理的方法。Dantzig选择器,作为一种有效的变量选择方法,是由Candes and Tao(2007)提出来的,这种方法现在已经成为一种非常流行的变量选择方法。但是它的大样本性质,除了Dickcr and Lin(2009)以外,几乎没有别的文献研究过.Dickcr and Lin(2009)研究了在随机设计,变量个数p是固定的情形下,Dantzig选择器的模型选择相合性。在我们论文的第二章中,我们考虑的是在固定设计的假设下,得到了无论p是固定的还是大于n的时候,Dantzig选择器的模型选择相合性。考虑如下的线性模型其中y=(Y1,Y2,…,Yn)'是一个n×1的响应变量,X=(X1,X2,…,Xn)'=(X1,Xp)是一个n×p维的固定设计阵,其中Xi是x的第i行,而Xj是x的第j列,ε=(ε1,ε2,…εn)是一个n维的独立同分布的误差项,满足E(ε1)=0和E(ε12)=σ2.令T*={j:βj≠0},即我们用T*来表示真模型的变量的下标的集合。对于{1,….p}的一个子集T,|T|表示子集T中元素的个数,T表示子集T在全集{1,2.….p}上的补集。βT=(βj)j∈T表示β对应于下标在集合T中的分量所构成的|T|×1的向量。记C=X'X/n对于{1,2,…,p}中的子集T1.T2,我们用CT1,T2来表示由矩阵C的分别对应于子集T1,T2中元素的那些行和列所构成的|T1|×|T2|矩阵。我们首先定义了在固定设计下,Dantzig选择器的不可表示条件。假设对于某个E∈{1:2,….,p}满足|E|=|T*|,Cr*,E是可逆的,则不可表示条件定义为: ·不等式 成立并且存在一个正常数η满足其中1是一个每个分量都是1的(p一q)×1维向量,并且|.|表示上面的不等式 成立指的是不等式的左侧的向量中每个分量的绝对值逐个与右侧的分量比较。 这里的不可表示条件指的是不显著的变量不可能由显著变量表示。不可表示条件对于Dantzig选择器的相合性具有非常重要的作用。在不可表示条件成立的条件下我们得到了,无论p(变量个数)是固定的,还是随着n增大的,甚至是关于n以指数的速度增长,Dantzig选择器都是模型选择相合的。这里的相合指的是依概率符号相合,即其中βD(λ)is Dantzig选择器的解,λ是惩罚参数.我们还研究了变量选择后的传统的参数估计的相合性。我们得到了如果显著变量的个数满足q=o(n),变量选择后的传统的参数估计是也是相合的。 正如我们在上面的第二章中证明的,只要潜在的真模型满足不可表示条件,Dantzig选择器就具有相合性,但是当不可表示条件不成立的时候,模型选择的相合性就不再满足了。此外,Dantzig估计也达不到Fan and Li(2001)和Fan and Pcng(2004)里给出的oracle性质。我们发现Dantzig选择器的惩罚方式有些不公平,因为所有大小的系数惩罚的程度都是一样的。因此,在第三章中,我们给不同大小的系数施加不同程度的惩罚,给出了一种加权的Dantzig选择器,这也就是所谓的适应的Dantzig选择器,对于适应的Dantzig选择器,我们研究了它在稀疏高维线性模型下的,对于不同大小的p的渐近性质。我们证明了只要能得到一个合理的初始估计,在适当的条件下,而无需满足不可表示条件,适应的Dantzig选择器具有oracle性质,不管p以多项式的速度还是以指数的速度趋于无穷。即适应的Dantzig选择器的解β(ADS)满足下面两条: (a)P(β(ADS)=sβ)→1,n→+∞ (b).(?)(β(ADS)T-βT)→DN(0,1),其中sn2=σ2(?)n'∈Rq满足║(?)n║≤1. 第三章的最后,我们对于p≤n和pn分别给出了都给出了恰当的初始估计作为适应的Dantzig选择器的权重。 在实际应用中,重要变量通常是依据于实际经验被选出来的。例如,在医学上,寻找某种癌症的致病基因都是取决于临床试验,这种做法通常是不可能把所有与癌症有关的基因都选出来的。此外,在某些情况下,既使我们使用一种模型选择相合的变量选择方法,例如Dantzig选择器,我们在一次选择中,也不可能保证总能成功的选出真模型。因此,在实际应用中,我们的子模型通常都是有偏的。如果我们就用这个有偏的子模型来做预测或控制的话,肯定得不到好的结果。因此,纠正或者减小子模型的偏是一件非常必要也是非常有意义的事情。在第四章中,我们对子模型进行重新建模,使得新的模型是可识别的并且无偏的。这里我们不再考虑线性模型,而是考虑一类更广泛的模型-部分线性模型。它的定义为其中Y2响应变量Y的独立同分布的观测值,(Τi,Χi',Ζi')是协变量(T.X',z')的观测值,β=(β1,...,βp)'是一个p维的未知参数向量,γ=(γ1…,γq)'是一个q维的未知参数向量,g(·)是一个未知函数.为了避免维数灾难问题,我们简单的假设T是一维的,ξis是独立同分布的误差项满足这里γ的维数q可能很高甚至随着样本量的增大趋于无穷。我们假设z是相对来说不太相关的变量因此被从全模型中剔除掉了。我们记所得到的子模型为 这样的一个子模型是有偏的,因为剔除掉的Z的系数γ中的分量只是相对较小,而非全为零。为了解决此问题,我们利用非参调整的方法得到一个局部无偏的子模型。调整后的子模型形如 其中T是某个给定的已知向量。这里提到的局部无偏的子模型指的是我们可以构造一个样本子空间,能够证明当样本落入该给定的子空间的时候,无论是基于调整子模型得到的调整的约束模型估计还是调整的预设检验估计都是相合的。虽然我们只是部分地纠了子模型的偏,但值得庆幸的是,从某种意义上来讲,这样的一个子空间还是足够大的。所以这样的一个局部无偏是接近于全局无偏的。 模拟实验和实际数据的应用进一步阐释了文中介绍的各种方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 金曼,方易新,赵林城;删失回归模型中的变量选择(英文)[J];应用概率统计;2005年02期
2 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期
3 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
4 张大仁,赵立新;遗传算法对QSAR研究中变量选择的应用[J];环境化学;2000年03期
5 严于鲜;;层次分析法在线性回归方程中的应用[J];四川理工学院学报(自然科学版);2006年05期
6 罗英姿,张洁洋;用人工神经网络研究地方经济指标[J];河南广播电视大学学报;2005年02期
7 杨璐,高自友;用神经网络进行变量选择[J];北方交通大学学报;1999年03期
8 王今,韩文秀;财务危机预警中财务比率的选择研究[J];数学的实践与认识;2003年08期
9 郭照庄;宋向东;张良勇;董晓芳;;变窗宽密度核估计的构造及均方相合性[J];佳木斯大学学报(自然科学版);2006年03期
10 凌能祥;许昌满;彭小智;;NQD样本下密度函数核估计的相合性[J];合肥工业大学学报(自然科学版);2008年02期
11 孙桂萍;;两两NQD序列密度函数核估计的r阶平均相合性[J];重庆文理学院学报(自然科学版);2009年02期
12 付艳莉;吴群英;;NA同分布序列加权和的相合性[J];吉林大学学报(理学版);2010年01期
13 张启全;;非线性回归模型的一种工具变量估计[J];昌潍师专学报(自然科学版);1997年02期
14 韩敏,林云,孙燕楠,齐东海;基于神经网络的建筑行业投标报价研究[J];系统工程学报;2003年04期
15 赵琼;张艳丽;;NQD样本下非参数回归函数最近邻密度估计的相合性[J];湖北师范学院学报(自然科学版);2009年01期
16 陈战波;耿志林;杨珂玲;;城市日用水量预测的部分线性自回归模型[J];武汉工业学院学报;2009年02期
17 孙桂萍;;两两NQD序列密度函数核估计的强相合性[J];阴山学刊(自然科学版);2009年02期
18 温忠麟;回归变量的一种选择方法及其应用[J];云南教育学院学报;1994年05期
19 方同祝,朱燕堂;自变量带误差的线性模型参数估计的收敛速度[J];纯粹数学与应用数学;1998年02期
20 王成勇;;国内半参数回归模型研究进展[J];襄樊学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 胡军华;蒋志刚;;环境变量选择与尺度变化对物种适宜栖息地模拟的影响:以普氏原羚为例[A];四川省动物学会第九次会员代表大会暨第十届学术研讨会论文集[C];2011年
2 武新乾;田铮;田萍;;一类部分线性自回归模型中的样条估计[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
4 李慷;席裕庚;;带有输出反馈的多变量控制系统中变量的选择[A];1994中国控制与决策学术年会论文集[C];1994年
5 刁宁;张永清;;改进蚁群算法在麻痹性贝毒素的QSAR中变量选择的研究[A];第五届全国环境化学大会摘要集[C];2009年
6 黄蓉;乔园园;;指示向量选择法在QSAR研究中的应用[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
7 张俊华;方伟武;;调查表数据分析中变量选择和判别分析的一些方法及简单比较[A];面向复杂系统的管理理论与信息系统技术学术会议专辑[C];2000年
8 韩敏;林云;;用神经网络的方法进行投标报价中的变量选择[A];第二十届中国控制会议论文集(下)[C];2001年
9 张永清;费红琳;丁凯;;修正CP_EA-PLS用于多环芳烃光解半衰期QSAR的研究[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
10 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
中国博士学位论文全文数据库 前10条
1 盖玉洁;若干高维模型变量选择和模型重建问题的研究[D];山东大学;2011年
2 任允文;基于处罚经验似然和跳惩罚最小二乘的变量选择[D];复旦大学;2010年
3 李腾飞;似然自适应惩罚变量选择方法研究[D];复旦大学;2012年
4 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
5 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年
6 陶凤梅;对应分析的数学模型[D];吉林大学;2005年
7 章文军;小波变换和神经网络在化学中的应用[D];中国科学院研究生院(长春应用化学研究所);2001年
8 汪建均;基于广义线性模型的变量选择与稳健参数设计[D];南京理工大学;2011年
9 唐丽娟;定量结构活性相关性研究与高维微阵列数据分析中的化学计量学新算法[D];湖南大学;2009年
10 丁光辉;PLS和GA应用于部分有机污染物的QSAR研究[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 肖金花;函数系数部分线性模型的变量选择[D];湖南师范大学;2012年
2 王群山;广义线性模型中LS-SCAD估计的渐近性质[D];大连理工大学;2009年
3 李玲玲;高维线性模型的变量选择[D];广西师范大学;2010年
4 闫闯;多元回归模型中变量选择问题研究[D];黑龙江大学;2011年
5 鞠思秋;半参数变系数部分线性模型的变量选择方法[D];华东师范大学;2012年
6 刘存银;基于修正经验似然的变量选择方法及其应用研究[D];华东理工大学;2011年
7 梁爱;半参数变系数部分线性测量误差模型的变量选择[D];华东师范大学;2011年
8 满敬銮;生存数据模型的变量选择[D];中南大学;2009年
9 周玮;变量选择中的LARS算法及其在国民经济中的应用[D];山东大学;2011年
10 王星惠;弱误差半参数和非参数回归模型估计的相合性[D];安徽大学;2011年
中国重要报纸全文数据库 前5条
1 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
2 海通股指期货联合研究中心 李子婧;基于BIRR模型的宏观因子套利策略[N];期货日报;2010年
3 中研博峰咨询有限公司咨询顾问 高荣霞;六步骤锁定细分市场[N];通信产业报;2009年
4 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年
5 本报记者 马薪婷;光大保德信基金公司董事长林昌:打造综合性资产管理公司[N];证券日报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978