收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高维病例—对照研究中交互作用的随机森林分析方法探讨

朱晶晶  
【摘要】:中、高通量分型平台(例如Illumina GoldenGate芯片,全基因组SNP芯片)的迅速发展,使得在关联性研究中可以同时对大量基因大量位点进行检测分型,由此产生大量高维数据(high-dimensional data)。越来越多的高维数据研究在关注主效应对疾病影响的同时,更关注SNP-SNP,SNP-环境因素的交互作用。 目前,统计学工作者已经建立了一些降维模型来寻找主效应与交互作用,以树为基础的统计分析方法是非参数统计方法的一种,其通过迭代的方法进行回归和分类分析,能在变量数较多情况下进行变量筛选,以便进行后续的交互作用分析。随机森林以其固有的特点和优良的分类性能在此类统计方法中脱颖而出。 本研究利用模拟试验,针对病例-对照研究中的高维数据,探讨随机森林算法在交互作用分析中的统计学性质,以及相应的分析策略,并指导肺癌遗传易感性的关联研究及交互作用分析。 研究内容包括模拟实验和实例分析两个方面: (1)基于HapMap网站上的中国人群信息,产生模拟数据,基于随机森林方法进行交互作用检测评价,验证随机森林在位点筛选和交互作用检测中的作用。 (2)利用高维肺癌病例对照资料,运用二阶段分析方法,首先基于随机森林算法进行多基因多态性与肺癌遗传易感性的关联研究,筛选SNP位点;其次将随机森林获得结果与CART和logistic回归等方法相结合,检测交互作用。 本研究的主要结果是: (1)模拟研究分析结果提示:随机森林可以同时检测与疾病相关的主效应与交互作用,通过变量的重要性得分发现交互作用。尤其是对于不存在主效应的模型,传统方法可能会同时忽略他们的交互作用,而利用随机森林可以弥补这一缺陷。 (2)实例分析结果提示:包含2条DNA修复通路的20个经典候选基因上的580个SNP位点,利用随机森林方法进行降维,经随机森林和LD-r2≥0.80筛得33个平均重要性得分最高且错误率最低的SNP位点,利用该结果进行进一步分析,可发现交互作用。而如果针对原始数据集的580个SNP位点,直接进行单位点logistic回归得到的结果信息量较少无法进行进一步交互作用分析。提示对高维病例-对照研究数据,先利用随机森林方法降维,再用logistic回归、CART等传统方法进行分析,可以有效剔除噪声变量,提高主效应和交互作用的检验效能。


知网文化
【相似文献】
中国期刊全文数据库 前9条
1 汪伟;华琳;郑卫英;刘红;;基于独立成分分析和随机森林判别法的Microarray分析及在分子生物学中的应用[J];中国优生与遗传杂志;2009年08期
2 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期
3 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
4 洪燕珠;周昌乐;张志枫;许家佗;;基于随机森林法的慢性疲劳证候要素特征症状的选择[J];中医杂志;2010年07期
5 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
6 陈珊;李晓宁;梁逸曾;张志敏;刘朝霞;张启明;丁丽霞;叶菲;;拉曼光谱的荧光背景扣除及其用于药物聚类分析[J];光谱学与光谱分析;2010年08期
7 马广立;赵筱萍;程翼宇;;基于随机森林与Chemistry Development Kit描述符的P-gp底物识别[J];高等学校化学学报;2007年10期
8 闫璐颖;华琳;闫岩;;随机森林滑动窗法探查类风湿疾病单核苷酸多态性及在上位显性交互研究中的应用[J];中国组织工程研究与临床康复;2011年17期
9 来海锋;韩斌;厉力华;陈岩;SUTPHEN Rebecca;祝磊;代琦;;一种基于有监督奇异值分解和随机森林的卵巢癌磷脂代谢物特征提取方法[J];中国生物医学工程学报;2010年02期
中国重要会议论文全文数据库 前6条
1 陈珊;李晓宁;梁逸曾;张志敏;;拉曼光谱的荧光背景扣除及其用于药物聚类分析[A];中国化学会第27届学术年会第09分会场摘要集[C];2010年
2 饶国强;冯辅周;江鹏程;靳莹;范结绪;;模糊识别在变速箱状态识别中的应用研究[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
3 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
4 刘雯;郭延芝;李梦龙;;随机森林用于激酶与底物蛋白的相互作用预测[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
5 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
6 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年
3 庄进发;基于模式识别的流程工业生产在线故障诊断若干问题研究[D];厦门大学;2009年
4 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
6 方文轩;非线性经济周期模型的随机稳定性与分岔研究[D];天津大学;2007年
7 郝明;基于化学信息学方法的药物分子计算研究[D];大连理工大学;2012年
8 高碧霞;代谢综合征早期肾损害尿液多肽生物标志物的研究[D];北京协和医学院;2011年
9 张文彤;甲型流感病毒H3抗原进化及变异规律研究[D];复旦大学;2005年
10 马广立;口服药物吸收属性与人体药时曲线预测方法研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 李贞贵;随机森林改进的若干研究[D];厦门大学;2013年
2 韩亮;基于随机森林的行人检测算法研究[D];北方工业大学;2014年
3 梁世磊;基于Hadoop平台的随机森林算法研究及图像分类系统实现[D];厦门大学;2014年
4 陈为宜;基于CUDA的霍夫森林目标跟踪算法研究[D];厦门大学;2014年
5 彭国兰;随机森林在企业信用评估中的应用[D];厦门大学;2007年
6 王驰;基于单目视觉的道路检测算法的研究[D];长春理工大学;2008年
7 邱一卉;随机森林在电信行业客户流失预测中的应用[D];厦门大学;2008年
8 孙烈;随机森林及其在色谱指纹中的应用研究[D];大连理工大学;2009年
9 徐欢欢;基于能量函数的图像分割方法的研究[D];中国科学技术大学;2009年
10 张青松;基于连续帧差的车牌定位识别技术研究[D];西南交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978