收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多组学缺失数据联合填补方法评价及其应用

董学思  
【摘要】:2003年,人类全基因组计划(human genoome project,HGP)宣告结束,由此,与人类疾病相关的遗传研究进入后GWAS时代。多组学数据(基因组、转录组、表观遗传组等)一般来自于不同的平台,这使得多组学数据挖掘新生了很多困难。如"块缺失"(bulked missing data)的情况在多组学数据中经常出现。保证在数据结构(方差-协方差结构)尽量不变或变化幅度相对较小时,提高缺失数据填补的精确度,对于后期数据挖掘有重要的意义。本研究致力于多组学(转录组、表观遗传组)中"块缺失"数据填补方法的评价。并将优势方法应用于WNT信号通路相关变量,对缺失数据进行填补,对早期非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的预后状况进行建模预测,并比较填补前后模型的预测效果。下载癌症基因组图谱(the cancer genome atlas,TCGA)数据库中非小细胞肺癌数据(包括:甲基化数据、基因表达数据),通过构造不同缺失比例的缺失数据集(缺失比例分别为5%、20%、35%、50%和65%),评价填补方法在数据集中的填补效果(WNT通路数据集和随机变量数据集)。采用统计学填补方法[均值法,马尔科夫蒙特卡洛法(Markov Chain Monte Carlo,MCMC)]和机器学习填补法[邻近法(k-Nearest Neighbor,KNN),随机森林法(Random Forest,RF),多层感知机法(Multi-layer perceptron,MLP)]对缺失数据进行填补,填补后的数据集与原数据集进行综合比较。评价指标:①估计偏差,②矩阵-2-范数。再根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。选择WNT通路数据集,对MLP方法进行填补。填补前后的数据集,分别用(I)SIS降维方法进行降维,经过降维压缩后,保留下来的变量纳入Cox比例回归模型,并对第5年的预后情况进行风险预测。Bootstrap进行1000次,计算AUC的可信区间,比较填补前后预测模型中AUC的大小。MLP和KNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。在实际数据分析中,MLP方法填补后的数据集,经过降维后建立的Cox模型预测效果优于未进行填补的数据集,其中AUCimp-0.7431[0.7215,0.7647],AUCunimp=0.6945[0.6729,0.7161]。综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补,且具有实际应用价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨金英;崔朝杰;;图模型方法用于二值变量相关性分析中缺失数据的估计[J];中国卫生统计;2012年05期
2 帅平;李晓松;周晓华;刘玉萍;;缺失数据统计处理方法的研究进展[J];中国卫生统计;2013年01期
3 沈琳;陈千红;谭红专;;缺失数据的识别与处理[J];中南大学学报(医学版);2013年12期
4 张伟;冯萍;赵永红;袁佳英;李梅;;加权估计方程用于缺失数据的处理[J];中国卫生统计;2013年03期
5 张桥;李宁;张秋菊;刘美娜;;任意缺失模式缺失数据不同填补方法效果比较[J];中国卫生统计;2013年05期
6 赵景波;谭瀛;杨瑞璋;;缺失数据配伍组设计方差分析的回归分析方法[J];中国卫生统计;1990年06期
7 李清华,夏结来;有缺失数据的2×2交叉设计的多重填补与分析[J];中国卫生统计;2005年05期
8 周艺彪,姜庆五,赵根明;调查研究中数据缺失的机制及处理方法[J];中国卫生统计;2005年05期
9 沐守宽;周伟;;缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法[J];心理科学进展;2011年07期
10 廖慧敏;林燧恒;;数据缺失机制对逐步回归变量筛选的影响[J];中国卫生统计;2011年04期
11 尚磊;孙丽君;万毅;张玉海;;生长发育监测指标缺失数据插补方法比较[J];数理医药学杂志;2013年05期
12 陈长生,王彤,徐勇勇,尚磊;医学科研中缺失数据的EM估计[J];第四军医大学学报;2002年01期
13 王睿;马修强;陆健;赵艳芳;贺佳;;Epworth量表中缺失数据处理方法研究[J];中国卫生统计;2013年01期
14 伍亚舟;易东;;基因表达谱缺失数据填补估计方法的研究进展与探讨[J];重庆医学;2014年14期
15 李清华,夏结来,薛富波;多重填补处理有缺失数据的2×2交叉设计资料的计算机模拟[J];第四军医大学学报;2004年23期
16 戴雪梅;张佃中;;心率缺失数据插值方法探讨[J];中国医学物理学杂志;2013年01期
17 冯志兰,刘桂芬,刘力生,郝建生;缺失数据的多重估算[J];中国卫生统计;2005年05期
18 李树威;钟晓妮;;基于Markov Chain Monte Carlo模型对医院调查资料中缺失数据的多重估算[J];中国卫生统计;2013年06期
19 吴秋红;张裕青;李国平;张丕德;;不同模型处理纵向缺失数据的模拟研究及应用[J];中国卫生统计;2013年06期
20 岳勇;田考聪;;数据缺失及其填补方法综述[J];预防医学情报杂志;2005年06期
中国重要会议论文全文数据库 前8条
1 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 陈楠;刘红云;;基于增长模型的缺失数据处理方法之比较[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 肖进;贺昌政;;面向缺失数据的客户价值区分集成模型研究[A];中国企业运筹学[2010(1)][C];2010年
5 曾莉;张淑梅;辛涛;;IRT模型中缺失数据处理方法比较[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 孙玲;刘浩;袁长亮;;北京市城市快速路微波检测缺失数据分析[A];2008第四届中国智能交通年会论文集[C];2008年
7 张香云;;基于EM算法缺失数据下混合模型的参数估计[A];第十三届中国管理科学学术年会论文集[C];2011年
8 李晓煦;侯杰泰;;结构方程中缺失数据的处理:FIML,EM与MI[A];全国教育与心理统计测量学术年会论文摘要集[C];2006年
中国博士学位论文全文数据库 前10条
1 马友;基于QoS缺失数据预测的个性化Web服务推荐方法研究[D];北京邮电大学;2015年
2 彭清艳;广义函数型回归模型及缺失数据模型[D];云南大学;2016年
3 龚奇源;面向数据发布的数据匿名技术研究[D];东南大学;2016年
4 骆汝九;多指标综合评价的非参数方法和缺失数据的聚类方法研究[D];扬州大学;2011年
5 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年
6 贾博婷;缺失数据下一类整值时间序列的统计推断[D];吉林大学;2014年
7 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年
8 赵鹏飞;混沌数据恢复与非线性系统的模型参考控制[D];吉林大学;2010年
9 陆福忠;数据缺失下的分布函数估计问题[D];复旦大学;2007年
10 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 杨利华;缺失数据的处理方法研究及应用[D];景德镇陶瓷学院;2011年
2 袁中萸;多元线性回归模型中缺失数据填补方法的效果比较[D];中南大学;2008年
3 褚培肖;缺失数据下的有限混合计数数据模型的统计推断研究[D];昆明理工大学;2015年
4 申宁宁;纵向研究缺失数据多重填补及混合效应模型分析[D];山西医科大学;2015年
5 李少琼;纵向研究二分类缺失数据处理及加权估计方程的应用[D];山西医科大学;2015年
6 高宇钊;比值缺失数据的多重估算与心脏康复二级预防干预效果评价及应用[D];山西医科大学;2015年
7 李顺静;基于EM算法的缺失数据的统计分析及应用[D];重庆工商大学;2015年
8 汪静波;Logistic回归模型中缺失数据的处理[D];南京大学;2015年
9 朱建斐;数据集缺失数据恢复算法研究[D];西安电子科技大学;2015年
10 母建熊;基于饱和模型的带有缺失的可交换两值数据分析[D];东南大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978