高维生物数据分析中模型平均方法的应用研究
【摘要】:大数据时代的今天,生物技术的不断发展,出现了大量的高维生物数据。例如基因芯片技术大大提高了基因测序的效率和降低了测序的成本,并随之产生了大量的高维生物数据。而这些生物数据的维数从几十维几百维到几千维,数据量庞大而且斑驳复杂,数据的冗余性和不相关性随之增加。为降低高维数据包含的噪声,提高研究效率,变量选择方法得到重视和发展。模型平均方法不依赖于一个最佳模型,而是通过给更好的模型赋予更高的权重进行组合预测。因此,模型平均能综合利用单项模型的有用信息,减少受单项模型选择中不确定因素的影响。本论文利用模型平均方法的优势,对高维生物数据进——行建模分析,得到比单个模型分析更好的精度和效果。研究内容分为三个部分:1、基于Logistic回归模型平均的疾病诊断研究。首先,通过蒙特卡洛方法模拟出六类数据类型,分别运用基于Logistic回归模型的三个惩罚函数方法(SCAD-L方法、gMCP-L方法和GB-L方法)及其对应的四个组合模型(gMCP+SCAD-L方法、gMCP+cMCP-L方法、gMCP+GB-L方法和cMCP+SCAD-L方法)进行分析比较各类数据建模效果。并以UCI中的Arrhythmia数据集为实例验证,得到gMCP-L方法和GB-L方法的组合模型具有比三个单项模型和其余组合模型更高的分类预测精度。研究结果表明,模型平均方法(组合模型)一定程度上综合利用了单项模型包含的信息,提高了疾病诊断的精确度,能够更好地辅助医生进行疾病诊断。2、生存数据分析中模型平均方法的应用研究。以乳腺癌数据集为基础,模拟不同删失比例所对应的事件时间和状态。首先通过随机森林方法对变量进行初步筛选,再利用贝叶斯模型平均方法对筛选后的变量做分析计算。将贝叶斯模型平均的分析结果与COX风险回归模型作比较,结果表明贝叶斯模型平均方法具有更高的计算精度。3、模型平均方法在高维基因数据的应用研究。基于高维数据线性回归模型中解释变量P大于样本量n的情况,本文提出了利用模型平均方法进行建模分析的改进方法,具体步骤如下:第一,按照解释变量对响应变量的显著性检验的P-value值的大小进行排序,对解释变量进行分组;第二,对每组建立回归模型;第三,通过Jackknife、Mallows准则等各种方法分别计算各模型权重,对若干个回归模型做模型平均。研究表明:该模型平均改进方法能得到的较高的模型精度。综上所述,模型平均方法在疾病诊断、高维生存数据和高维基因数据中均有更为优良的表现。