收藏本站
《山东大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用

王树云  
【摘要】:在过去的几十年内,无论是在理论统计的研究工作中还是在现实的统计应用领域,变量选择问题一直是个热点问题且受到持续的关注。但是最近几年内,随着科学技术的发展,大量高维数据的产生,给传统的变量选择方法带来了很大的挑战。比如,在生物信息学致病基因选择问题中,往往有成千上万的基因作为解释变量,但是往往用来做训练和检验的样本(病人观测数据)总共只有不足一百个。类似这样“大p,小n”的数据给统计推断带来了“维数灾难”,致使大多数经典统计方法变的不稳健或者计算效率低下。 高维问题吸引大量统计学家做了大量研究工作,并且提出了一些成功的理论和方法。在我们的整篇论文中,我们也将要讨论高维变量选择这个富有挑战而且颇具吸引力的问题。特别的,我们是在线性回归的框架下展开研究的,并且主要应用于基因组数据的分析。考虑如下的线性模型y=xTβ*+ε,这里y是响应变量;x=(x1,x2,…,昂)T是p维解释变量;ε是误差项,服从以零为均值,σ为标准差的正态分布;β*=(β1*,β2*,…,βp*)T是回归系数向量的真值。整篇文章中,我们假设响应变量的维数p可以远大于样本个数n。响应变量y和解释变量x的n次观测记为:y=(y1,y2,…,yn)T和X=(X1T,X2T,…,XnT)T,这里Xi=(xi1,xi2,…,xip)是解释变量x的第i次观测。 我们主要从以下两个方面讨论高维变量选择问题: 1. Bayes变量选择方法的相合性研究. 不同于传统的频率学派的方法,在第二章我们将要研究Bayes变量选择方法。在多领域的高维数据应用分析中,Bayes变量选择方法取得了至少相当的,甚至优于频率学派方法的成果。这里我们将要从理论方面探讨其中的原因:为什么Bayes变量选择方法在实际应用中取得如此成果。 大多数文献中,Bayes变量选择方法的构思可以阐述为:首先,定义一个辅助的指示变量γ=(γ1,γ2,…,γp)用来表示选定的子模型。指示变量γ的元素满足选定某个子模型γ后,我们可以选出这个子模型所对应的解释变量xγ,同时可以定义变量系数βγ∈R|γ|这里vγ表示为向量v的一个子向量,确切的说是由满足γj=1的所有下标J所对应的v的元素组成的子向量;表示向量v的L1范数.因此,在线性模型下变量选择和模型拟合问题可以转化为选定一个子模型γ,然后确定模型系数βγ.其次,在观测数据的条件下,给定参数γ和βγ一个合适的先验分布,我们可以得到参数的后验分布并且选择具有比较大后验概率值的子模型进行统计推断。 在第二章中,我们假设解释变量服从均匀分布,因此y和x的联合密度函数满足:同时假定回归系数真值β*是稀疏的,满足.这个稀疏条件相对来说更加符合现实情况一所有的解释变量对响应变量都有一定的影响,或多或少,但是只有几个解释变量的影响比较大。在这种情况下,不存在一部分回归系数非零,其余回归系数为零的所谓的“真模型”,因此变量选择的任务就是选出一个相比于全模型来说简单且更具解释性和预测性的模型。在以上假定下,我们给出了参数γ和βγ先验分布πn的两个条件,其中条件一要求πn在真模型的近似区域取值足够大,条件二要求πn。在复杂模型上的取值比较小。上述先验下,后验分布πn(γ,dβγY,X)具有良好的性质,由其推导出的回归函数后验估计渐进相合于真正的回归函数μ0(x)=Efo(y|x),即回归函数的相合性表明了Bayes变量选择方法可以成功的辨别出一些后验概率值比较大的子模型,这有效的缩小了变量选择范围,具有重要实际意义。 稀疏条件的特殊情况就是存在一个真模型,满足一小部分回归系数非零,其余全为零。在这种假设下,接下来我们的任务就是来证明Bayes方法可以辨别出真模型。我们把βγ从πn(γ,βγ|Y,X)积分掉,得到假设子模型γ在所有要考虑的子模型范围内具有最大的后验概率值πn(γ|Y,X)并且βA是基于模型γ的回归系数真值β*的后验估计.第二章中我们证明了特定条件下,子模型γ收敛于真模型通过以下方式:这里的L2相合性暗示了Bayes变量选择方法能以很高的概率选出重要的变量,并且错选入模型的变量往往具有很小的系数。 最后,模拟数据分析以及实际白血病数据分析表明Bayes变量选择方法的表现是很有竞争力的,并且非常稳健。 2.基于图限制下的变量选择和参数估计研究及其在高维基因组数据中的应用 图或者网络是描述生物信息表达的一种常见方式。在生物学中,许多不同的生命过程可以通过图(比如:蛋白网、代谢通路)的形式表达出来。在图中相互连接的基因彼此之间具有很高的相关性并且以生物模块的形式影响着临床表现。在第三章中,我们将结合基因组数据中已有的图的先验信息,进行图限制下正规化的模型拟合以及选择与疾病相关的基因组。 受基因组数据往往具有图结构的启发,Li et al.(2008 and 2010)最早在回归模型的框架下提出了图限制下正规化的方法,即Grace方法,以充分利用图信息进行变量选择。Grace方法的工作原理可以简述为在Lasso定义的基础上添加了一个包含基因组数据中图信息的惩罚。如此这般,Grace既保持了Lasso变量选择的稀疏性,又增加了图中基因系数的平滑性,保证了选择整组基因的能力。 类似于Grace,我们定义了一个新的图限制下正规化方法(N-Grace)如下:这里是目标函数.但是和Grace不同的是我们的方法并没有要求图中基因的系数平滑。我们的惩罚函数只要求图中基因的系数同时变为零(或者非零),如果基因所在的子图被证明是与回归模型无关的(或者相关的)。单就变量选择来说,N-Grace应该是比Grace更加合理。 至于求解N-Grace,我们采用“一次一个坐标的”的单坐标下降算法。在每次迭代中,变化某一个坐标下的参数同时固定其他坐标上的参数,使得目标函数Q*(β)达到最小,来确定此次迭代中最优的参数估计。最后,我们通过模拟数据分析和真实的SNP数据分析来验证我们的方法。 3.相关变量下的Bayes变量选择以及随机搜索算法 在第四章,我们将要考虑解释变量相关条件下的Bayes变量选择问题。给定响应变量y和解释变量z=(x1,x2,…,xp)T,我们假定最多只有Pmax个解释变量与响应变量y相关.我们把这p个解释变量看作是某个网络图中的顶点,其中相关的解释变量之间有边进行连接。受Li et al.(2008,2010)的启发,我们尝试着把解释变量之间网络图的信息加到回归系数的先验当中。由解释变量连接而成的加权图我们记为G=(V,E,W),在第三章中我们对其进行了具体定义。给定一个模型γ,我们把Li et al.(2008 and 2010)中图限制的方法融合到Bayes框架下,具体说来就是我们对回归系数βγ使用了如下的先验分布: 因为我们假定最多只有Pmax个解释变量与响应变量y相关,因此只有个子模型在我们的考虑范围之内,这远远小于所有可能的子集个数2p。我们记Rpmax为需要考虑的模型的集合,即所有解释变量个数小于Pmax的模型的集合。我们声明在本章中所有提及的模型γ都限定在集合Rpmax中。我们只需要对集合Rpmax中的模型考虑加以合适的先验分布,并且在没有其他有用先验信息的条件下我们对其中所有的模型施以相同的先验分布:这里 在给出上面的参数先验分布和样本观测数据D的前提下,我们可以得出模型γ的后验分布:接下来BVS所需要做的事情就是找出具有最大后验概率的子模型。 在统计计算方面,我们摒弃了传统的MCMC算法,转而提出了一种新的随机搜索方法M-BMSS。我们以此方法进行搜寻具有最大后验概率的子模型。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:O212.1

手机知网App
【共引文献】
中国期刊全文数据库 前1条
1 许慧琳;张文彤;赵耐青;姜庆五;;影响H5N1甲型流感病毒对哺乳动物毒力变异的HA序列关键位点研究[J];复旦学报(医学版);2006年05期
中国重要会议论文全文数据库 前2条
1 车万翔;刘挺;李生;;浅层语义分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 Shiquan REN, Li LUO, Wenjuan SHANG Institute of Service Management, Business School, Sichuan University, Chengdu, Sichuan 610064, China;A Statistical Analysis Frame on Complex Data Mining in Service Industries[A];ICSSSM'04国际会议论文集(Ⅰ)[C];2004年
中国博士学位论文全文数据库 前8条
1 张文彤;甲型流感病毒H3抗原进化及变异规律研究[D];复旦大学;2005年
2 贾富仓;生物医学图像组织统计分类研究[D];中国科学院研究生院(计算技术研究所);2004年
3 苏振强;多模型共识数据建模方法研究[D];中国科学技术大学;2006年
4 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
5 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年
6 吕雪松;基因芯片数据处理方法及在乳腺癌数据中的应用[D];清华大学;2006年
7 章军;小生境粒子群优化算法及其在多分类器集成中的应用研究[D];中国科学技术大学;2007年
8 马广立;口服药物吸收属性与人体药时曲线预测方法研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘月;基于顾客选择行为的酒店存量控制策略研究及其应用[D];四川大学;2005年
2 陈鑫;基于决策树技术的遥感影像分类研究[D];南京林业大学;2006年
3 富春枫;Boosting方法在基因微阵列数据判别分析中的应用[D];南京医科大学;2006年
4 杨舟;关于统计学习模型复杂性评价与估计的若干研究[D];清华大学;2006年
5 刘咸慧;基于RF的更新期PHTP需求影响因素分析[D];电子科技大学;2007年
6 李楠;基于改进随机决策树的入侵检测方法研究[D];合肥工业大学;2007年
7 张青松;基于连续帧差的车牌定位识别技术研究[D];西南交通大学;2007年
8 张晓孪;中文问答系统中问题理解与信息检索的研究与实现[D];西北大学;2007年
9 张华伟;基于层次分类和集成学习的文本分类技术研究[D];江西师范大学;2007年
10 易丽君;基于基因表达谱的数据挖掘方法研究[D];中南大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 孙道德;再论线性模型自变元选择的BIC方法相容性条件[J];高校应用数学学报A辑(中文版);1995年01期
2 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
3 张大仁,赵立新;遗传算法对QSAR研究中变量选择的应用[J];环境化学;2000年03期
4 严于鲜;;层次分析法在线性回归方程中的应用[J];四川理工学院学报(自然科学版);2006年05期
5 罗英姿,张洁洋;用人工神经网络研究地方经济指标[J];河南广播电视大学学报;2005年02期
6 杨璐,高自友;用神经网络进行变量选择[J];北方交通大学学报;1999年03期
7 王今,韩文秀;财务危机预警中财务比率的选择研究[J];数学的实践与认识;2003年08期
8 韩敏,林云,孙燕楠,齐东海;基于神经网络的建筑行业投标报价研究[J];系统工程学报;2003年04期
9 陈战波;耿志林;杨珂玲;;城市日用水量预测的部分线性自回归模型[J];武汉工业学院学报;2009年02期
10 周源泉;正态可靠寿命的Bayes限、Fiducial限及经典限[J];电子学报;1986年02期
中国重要会议论文全文数据库 前10条
1 刘震;陈宇达;袁晴晴;李应华;施伯乐;;Bayes网络在数据挖掘中的应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 王凯;郭建英;孙永全;;贮存导弹多次试射的可靠性Bayes统计分析[A];2011年全国机械行业可靠性技术学术交流会暨第四届可靠性工程分会第三次全体委员大会论文集[C];2011年
3 胡军华;蒋志刚;;环境变量选择与尺度变化对物种适宜栖息地模拟的影响:以普氏原羚为例[A];四川省动物学会第九次会员代表大会暨第十届学术研讨会论文集[C];2011年
4 刘昌钰;郭颖;唐常杰;翟静;李海宏;;基于潜在语义分析与Bayes分类的BBS文档鉴别[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 姜增良;邵云峰;胡令银;;基于Bayes方法的反坦克导弹可靠性评估[A];中国电子学会可靠性分会第十四届学术年会论文选[C];2008年
6 刘震;袁晴晴;陈良刚;汪卫;施伯乐;;EBNC:一种扩展的Bayes网络分类挖掘算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 马超锋;李晓;成国文;赫建明;;大跨度公路隧道围岩动态分级的Bayes优化[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(中)[C];2012年
8 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
9 李慷;席裕庚;;带有输出反馈的多变量控制系统中变量的选择[A];1994中国控制与决策学术年会论文集[C];1994年
10 刁宁;张永清;;改进蚁群算法在麻痹性贝毒素的QSAR中变量选择的研究[A];第五届全国环境化学大会摘要集[C];2009年
中国重要报纸全文数据库 前7条
1 辛和;北京科技新星课题通过专家鉴定[N];中国建设报;2009年
2 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
3 海通股指期货联合研究中心 李子婧;基于BIRR模型的宏观因子套利策略[N];期货日报;2010年
4 中研博峰咨询有限公司咨询顾问 高荣霞;六步骤锁定细分市场[N];通信产业报;2009年
5 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年
6 周江文;有特色的测量误差理论研究[N];光明日报;2000年
7 本报记者 马薪婷;光大保德信基金公司董事长林昌:打造综合性资产管理公司[N];证券日报;2009年
中国博士学位论文全文数据库 前10条
1 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
2 陈玲;线性模型中参数型经验Bayes估计若干问题研究[D];中国科学技术大学;2011年
3 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年
4 明志茂;动态分布参数的Bayes可靠性综合试验与评估方法研究[D];国防科学技术大学;2009年
5 盖玉洁;若干高维模型变量选择和模型重建问题的研究[D];山东大学;2011年
6 任允文;基于处罚经验似然和跳惩罚最小二乘的变量选择[D];复旦大学;2010年
7 李腾飞;似然自适应惩罚变量选择方法研究[D];复旦大学;2012年
8 陶凤梅;对应分析的数学模型[D];吉林大学;2005年
9 岳博;Bayes网络模型及其学习算法研究[D];西安电子科技大学;2002年
10 章文军;小波变换和神经网络在化学中的应用[D];中国科学院研究生院(长春应用化学研究所);2001年
中国硕士学位论文全文数据库 前10条
1 邱燕;威布尔分布参数及可靠度的Bayes估计[D];广西师范学院;2011年
2 苏韩;逆威布尔分布的Bayes估计问题[D];广西师范学院;2010年
3 韦师;几种分布参数的E-Bayes估计及其应用[D];广西师范学院;2010年
4 仲崇刚;逆威布尔分布参数的Bayes估计及其在可靠性研究中的应用[D];广西师范学院;2012年
5 金晶;基于Bayes方法的复杂系统可靠度估计[D];哈尔滨理工大学;2012年
6 赵梦琳;几种不同分布的Bayes估计[D];燕山大学;2012年
7 邓立凤;逆高斯分布参数的Bayes 估计研究[D];广西师范学院;2010年
8 李玲玲;高维线性模型的变量选择[D];广西师范大学;2010年
9 闫闯;多元回归模型中变量选择问题研究[D];黑龙江大学;2011年
10 鞠思秋;半参数变系数部分线性模型的变量选择方法[D];华东师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026