收藏本站
《厦门大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类Knockoff方法控制FDR的高维变量选择

于海悦  
【摘要】:近年来,随着科学技术的进步,收集到数据的维数也越来越大。因此如何有效地从海量数据中挖掘出有用的信息逐渐成为科学研究的热点问题。尤其是在生物统计以及基因研究的领域,数据的维度通常都是远高于样本数量(np),又称之为超高维数据。目前统计学中的多数方法以及很多机器学习中的算法只能适用于低维数据,而高维以及超高维领域的研究却相对较少。在超高维的研究范畴中,通常会先将数据的维度降低到可以处理的范围,然后再进行下一步的运算,因此如何提高变量选择的准确性就成为了一个亟待解决的问题。其中,多重检验就是解决这一困难的方法之一,而近年来对于这个领域的研究较少。多重检验的方法最常用的是通过控制整体错误率(FWER)或错误发现率(FDR)来控制第一类错误率,即在FWER或FDR不超过某一阈值的条件下进行变量选择。Barber和Candes(2014)[1]首次提出了采用knockoff的方法来控制FDR,并发现其检验功效比经典BH方法更好,在多重检验这一领域产生了一定的突破。而这种方法只能应用在低维数据当中,即约束了np,这一约束使其不能很好的在生物统计以及其他一些高维领域的得到应用。本文主要围绕这一问题,提出了基于聚类的knockoff方法,将knockoff方法用聚类的方式扩展到超高维数据当中。本文首先对于全部变量进行聚类,分到m组变量集合当中,再对每一组的变量计算其对应的knockoff变量,将算好的knockoff变量组合起来,带入LASSO模型当中,按照原始变量和knockoff变量被选入模型时对应的参数大小来构造W统计量,最后用类似的方法来得到控制FDR条件下得到的变量作为变量选择的最终结果。我们发现这种方法能够有效的对高维条件下的FDR进行控制,而且效果好于Barber和Candes(2016)[2]将采用两阶段法。本文通过模拟实验和实证分析均证明了这种方法的优势。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前14条
1 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
2 王银辉;徐文科;;基于风险函数评价自变量选择对预测的影响[J];哈尔滨师范大学自然科学学报;2012年01期
3 胡丹青;顾永泉;赵为华;;中位数回归的贝叶斯变量选择方法[J];应用概率统计;2019年06期
4 李太福;易军;苏盈盈;胡文金;余春娇;;基于特征子空间虚假邻点判别的软传感器模型变量选择[J];机械工程学报;2011年12期
5 张庆;李云霞;;函数型变量选择法用于空气质量影响因素实证分析[J];安庆师范大学学报(自然科学版);2017年04期
6 李扬;许文甫;马双鸽;;污染数据的稳健稀疏成组变量选择方法研究[J];统计与信息论坛;2018年06期
7 钟先乐;樊亚莉;张探探;;基于t函数的稳健变量选择方法[J];上海理工大学学报;2017年06期
8 严奇琪;王延新;;高维部分线性小波模型中的变量选择[J];宁波工程学院学报;2018年02期
9 吴耀华;线性中位数回归中的变量选择[J];数学学报;1990年01期
10 李顺勇;钱宇华;张晓琴;牛建永;;基于变量选择和聚类分析的两阶段异方差模型估计[J];应用概率统计;2018年02期
11 杨宜平;薛留根;王学娟;;高维部分线性模型中的变量选择[J];北京工业大学学报;2011年02期
12 赵环;宦克为;石晓光;郑峰;刘丽莹;刘微;赵春英;;基于自加权变量组合集群分析法的近红外光谱变量选择方法研究[J];分析化学;2018年01期
13 李腾龙;叶万洲;;基于迭代光滑L_(1/2)算法的变量选择[J];应用数学与计算数学学报;2016年01期
14 王斌会,颜光宇;变量选择的稳健RMSq准则[J];第一军医大学学报;1997年04期
中国重要会议论文全文数据库 前10条
1 张俊华;方伟武;;调查表分析中变量选择的一些方法(英文)[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
2 李慷;席裕庚;;复杂过程系统中操作变量选择与定位的方法研究[A];1993年控制理论及其应用年会论文集[C];1993年
3 罗荣富;邵惠鹤;;推断控制中二次变量选择方法的研究[A];1992年中国控制与决策学术年会论文集[C];1992年
4 徐登;范伟;梁逸曾;;紫外光谱结合变量选择和偏最小二乘回归同时测定水中重金属镉、锌、钴[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
5 曹磊;丛培盛;;偏相关系数矩阵方法用于烟草质量控制的变量选择[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
6 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
7 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
8 刘咸姝;潘日芳;;满意控制结构综合的专家系统[A];1996年中国智能自动化学术会议论文集(上册)[C];1996年
9 范伟;李洪东;梁逸曾;;近红外光谱结合CARS变量选择方法用于食醋中总酸的测定[A];中国化学会第28届学术年会第9分会场摘要集[C];2012年
10 张俊华;;南水北调一中线调水区域内降水的时空变化规律的分析研究[A];面向复杂系统的管理理论与信息系统技术学术会议专辑[C];2000年
中国博士学位论文全文数据库 前10条
1 刘永欣;线性约束高维模型的稳健变量选择和异分布条件下的分类方法[D];山东大学;2019年
2 车金星;复杂数据的变量选择与预测方法研究[D];西安电子科技大学;2019年
3 初一;若干模型下的变量选择和特征筛选[D];山东大学;2018年
4 王延新;高维模型的变量选择与稀疏正则化[D];武汉大学;2013年
5 李子林;高维基因数据中的统计方法[D];清华大学;2016年
6 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年
7 秦志敏;我国上市公司财务预警变量选择研究[D];东北财经大学;2012年
8 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年
9 姬永刚;分位数回归中的贝叶斯变量选择[D];东北师范大学;2012年
10 赵军;Expectile回归和最优资产组合中的变量选择问题[D];浙江大学;2017年
中国硕士学位论文全文数据库 前10条
1 于海悦;聚类Knockoff方法控制FDR的高维变量选择[D];厦门大学;2019年
2 张喆;连续比率模型的变量选择及其应用[D];厦门大学;2019年
3 叶忠昌;自变量向量多元混合正态分布假设下基于分布加权最小二乘的变量选择[D];云南财经大学;2019年
4 贾易;加法风险模型下关于右删失生存数据的变量选择方法的研究[D];华中师范大学;2019年
5 王萧博;基于调整秩回归的EXP型组变量选择[D];曲阜师范大学;2019年
6 聂明鹏;基于排序差异和算法对光谱变量选择与定性分析的研究[D];温州大学;2019年
7 刘超;基于Adaptive Group Bridge的稳健变量选择[D];曲阜师范大学;2019年
8 李丹丹;变量选择方法在复杂群组数据中的研究及应用[D];广西大学;2019年
9 胡婧;对数Birnbaum-Saunders回归模型的变量选择[D];南京师范大学;2019年
10 陆琦;零过多数据基于惩罚回归的变量选择[D];南京师范大学;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978