收藏本站
《南京医科大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

控制混杂的随机森林方法评价及其在高维组学数据分析中的应用

梁君雅  
【摘要】:随着基因组学、表观遗传组学、转录组学等多组学研究的兴起,产生了大量的高维数据,这类资料的显著特点是超高维、稀疏性,变量数远大于样本数。虽然变量很多,但是绝大部分都是无用的噪声变量,因此选择合适的分析策略或统计模型,使真正有关联的变量区别于噪声变量而被筛选出来,显得至关重要。随机森林是由若干个决策树(decision tree)组成,每个决策树为一个分类器,可以得到一个预测结果。所有的预测结果进行组合得到最终的决策从而获得更好的分类和回归性能。相较于其他的集成学习方法如bagging、boosting等,随机森林因为在算法上考虑了样本的随机抽取、特征的随机抽取,以及交叉验证,从而提高了运算速度,并大大减少了模型过拟合的可能性。随机森林已经广泛使用于各大组学数据的分析中,受到了应用者的青睐。但是当存在混杂因素时,仅将混杂因素作为协变量放入随机森林的做法并不适用。本研究将探讨在运用随机森林模型探索高维组学数据时,如何同时对混杂因素进行控制。本研究采用了基于随机森林的方法有四种,分别是:随机森林(random Forest,RF)、ranger(RANdom forest GEneRator)、ranger(weighted)、基于广义线性模型的残差进行随机森林分析(本文用“残差法”或“residual+RF”表示)。本研究的目的就是利用模拟实验,比较这四种基于随机森林的相关模型,探讨在混杂存在时,能否有控制混杂,比较不同方法对混杂的控制效果。模拟实验在不同参数设置条件下,分别比较这四种模型,关联变量(causal)在随机森林得到的变量重要性评分(variable importance score,VIS)排序中的位于第一位的比例。模拟结果显示,在三种参数(优势比OR、变量数P、样本量N)中,当P和其他任一个参数固定,另外一个参数数值越大,四种模型下关联变量排在第一位的比例就越大,即越容易筛选出关联变量。当P、N、OR值不变时,四种模型下的关联变量位于VIS排序中第一位的比例随着关联变量与混杂的相关性(corr1)的增大而减少。但是不管参数如何变化,四种方法中,都是残差法效果最好,ranger(weighted)其次,RF和ranger并无太大差别。且残差法和ranger(weighted)比RF和ranger控制了混杂因素,筛选关联变量的效果更好。本研究还进行两个不同组学数据的实例分析,数据分别来源于非小细胞肺癌GWAS(Genome-wide association study)和非小细胞肺癌EWAS(Epigenome-wide association study)。对于肺癌GWAS数据的分析,本研究得到了与模拟实验相同的结论。将ranger(weighted)法应用于肺癌EWAS数据的分析,发现KDM基因中的体细胞DNA甲基化与早期非小细胞肺癌患者的生存之间存在关联,并指出了潜在的表观遗传治疗的靶点。证明了本研究方法的实用性。模拟实验和实例分析均表明,残差法和ranger(weighted)可以控制混杂,提高随机森林模型筛选出关联变量的能力。
【学位授予单位】:南京医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;Q811.4

【参考文献】
中国期刊全文数据库 前5条
1 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期
2 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期
3 谢益辉;;基于R软件rpart包的分类与回归树应用[J];统计与信息论坛;2007年05期
4 韩慧,毛锋,王文渊;数据挖掘中决策树算法的最新进展[J];计算机应用研究;2004年12期
5 唐华松,姚耀文;数据挖掘中决策树算法的探讨[J];计算机应用研究;2001年08期
中国博士学位论文全文数据库 前1条
1 张汝阳;高维数据交互作用分析的统计方法研究及其在肺癌全基因组关联研究中的应用[D];南京医科大学;2013年
中国硕士学位论文全文数据库 前1条
1 朱晶晶;高维病例—对照研究中交互作用的随机森林分析方法探讨[D];南京医科大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 张奇;荣雯雯;刘艳;;基因表达谱数据分类算法综述[J];实用预防医学;2018年08期
2 郭桂祯;刘乃山;;基于随机森林模型的区域洪涝灾害房屋倒损评估方法研究[J];灾害学;2018年03期
3 吴志明;李建超;王睿;时蕾;苗松;吕恒;李云梅;;基于随机森林的内陆湖泊水体有色可溶性有机物(CDOM)浓度遥感估算[J];湖泊科学;2018年04期
4 李宁;徐永明;何苗;吴笑涵;;基于遥感的北京市体感温度指数反演研究[J];生态环境学报;2018年06期
5 曹琼;苏欢;宛晓春;宁井铭;;基于EGCG,ECG和咖啡碱含量的乌龙茶产地鉴定[J];茶叶科学;2018年03期
6 宋康明;姜阳厚;谭志祥;周才文;陈锐;朱冬丽;;基于随机森林方法的岩石节理粗糙度系数研究[J];地质科技情报;2018年03期
7 栾静;张崇良;徐宾铎;薛莹;任一平;;海州湾双斑蟳栖息分布特征与环境因子的关系[J];水产学报;2018年06期
8 胡翠林;张洪亮;张亚洲;潘国良;徐开达;毕远新;梁君;王好学;周永东;;带鱼保护区春秋季鱼类群落特征及与环境因子的关系[J];水产学报;2018年05期
9 苏程佳;陈莎;陈晓宏;;基于随机森林模型的咸潮预报[J];热带地理;2018年03期
10 卢昊宽;文汉云;;基于决策树的薪资结构普查模型研究[J];电脑知识与技术;2018年12期
中国硕士学位论文全文数据库 前1条
1 梁君雅;控制混杂的随机森林方法评价及其在高维组学数据分析中的应用[D];南京医科大学;2018年
【二级参考文献】
中国期刊全文数据库 前4条
1 方匡南;朱建平;谢邦昌;;基于随机森林方法的基金收益率方向预测与交易策略研究[J];经济经纬;2010年02期
2 刘微;罗林开;王华珍;;基于随机森林的基金重仓股预测[J];福州大学学报(自然科学版);2008年S1期
3 林成德;彭国兰;;随机森林在企业信用评估指标体系确定中的应用[J];厦门大学学报(自然科学版);2007年02期
4 郭景峰,米浦波,刘国华;决策树算法的并行性研究[J];计算机工程;2002年08期
【相似文献】
中国期刊全文数据库 前10条
1 陈一诺;董绍华;;基于随机森林算法的管道缺陷预测方法[J];油气储运;年期
2 刘阳;杜华军;岳子涵;马杰;吕武;;基于随机森林的无人机检测方法[J];计算机工程与应用;年期
3 胡蝶;;基于随机森林的债券违约分析[J];当代经济;2018年03期
4 温博文;董文瀚;解武杰;马骏;;基于改进网格搜索算法的随机森林参数优化[J];计算机工程与应用;2018年10期
5 赵艺淞;杨昆;王保云;黎晓路;;随机森林在城市不透水面提取中的应用研究[J];云南师范大学学报(自然科学版);2017年03期
6 吴辰文;梁靖涵;王伟;李长生;;一种顺序响应的随机森林:变量预测和选择[J];小型微型计算机系统;2017年08期
7 顾娟;林敏;鞠桂玲;;基于随机森林回归的军械器材需求预测[J];自动化应用;2017年09期
8 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期
9 罗超;;面向高维数据的随机森林算法优化探讨[J];商;2016年04期
10 杨晓峰;严建峰;刘晓升;杨璐;;深度随机森林在离网预测中的应用[J];计算机科学;2016年06期
中国重要会议论文全文数据库 前10条
1 尤东方;赵杨;;存在混杂时高维数据的随机森林分析[A];2017年中国卫生统计学学术年会论文集[C];2017年
2 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
3 吕洁;;基于随机森林算法对内蒙古地区地面逐日平均温度的估算[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
4 张炜;;天津市人才吸引力影响要素评价——基于随机森林法的检验分析[A];发挥社会科学作用 促进天津改革发展——天津市社会科学界第十二届学术年会优秀论文集(中)[C];2017年
5 高洪利;;基于随机森林算法的卷烟销量预测及分析[A];中国烟草学会学术年会优秀论文集[C];2017年
6 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
7 高磊;秦慧杰;许康;;基于随机森林的资源三号影像地表覆盖信息提取[A];地理信息与人工智能论坛暨江苏省测绘地理信息学会2017年学术年会论文集[C];2017年
8 郑志伟;邱佳玲;阳庆玲;龚晓春;郭山清;贾忠伟;郝春;;随机森林算法对文本情感分析的应用与R软件实现[A];2017年中国卫生统计学学术年会论文集[C];2017年
9 杨璐;宋建国;;基于随机森林的地震储层分类方法研究[A];2017中国地球科学联合学术年会论文集(三十八)——专题71:内磁层动力学、专题72:计算地球物理方法和技术、专题73:地热:“学”以致“用”、专题74:电磁卫星观测与应用[C];2017年
10 刘继辉;许磊;马晓龙;李达;林鸿佳;杨洋;杨晶津;李兴绪;王慧;;基于随机森林回归的制丝过程参数影响权重分析[A];中国烟草学会学术年会优秀论文集[C];2017年
中国重要报纸全文数据库 前1条
1 本报记者 田新元;人工智能助力保险业智慧化转型[N];中国改革报;2017年
中国博士学位论文全文数据库 前10条
1 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年
2 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年
3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年
5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年
6 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年
7 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
8 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年
9 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年
10 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
中国硕士学位论文全文数据库 前10条
1 叶蓓;WorldView-3数据的岩性信息自动提取方法研究[D];中国地质大学(北京);2018年
2 高聪;基于随机森林的不平衡大数据分类算法研究[D];东北电力大学;2018年
3 闫东阳;基于对象的随机森林遥感分类方法优化[D];中国地质大学(北京);2018年
4 吴卫星;随机森林在技术指标量化选股中的应用[D];电子科技大学;2018年
5 张向前;机器学习在辐射源信号指纹识别中的应用研究[D];电子科技大学;2018年
6 王梦芹;基于随机森林的个人信用评价指标分析[D];安徽大学;2018年
7 谈小雨;基于情感时序距离的文本情感分类和情感主体识别方法研究[D];安徽大学;2018年
8 苏靖宇;多因子选股模型在A股市场上的实证研究[D];安徽大学;2018年
9 刘建航;大数据环境下异常通话行为检测的研究[D];北京邮电大学;2018年
10 罗斌杰;基于随机森林的心脏病预测平台的设计与实现[D];北京邮电大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026