收藏本站
《哈尔滨工程大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

面向医学数据的随机森林特征选择及分类方法研究

姚登举  
【摘要】:医学数据挖掘是数据挖掘技术的重要研究方向,多年来始终是计算机科学和医学领域的研究热点。近年来,医学数据挖掘对象正逐渐由临床诊断数据转变到基因芯片数据。目前,许多优秀的数据挖掘算法被应用于各种医学研究工作中,如决策树、支持向量机和人工神经网络等。然而,医学数据所固有的高维特征空间、高度特征冗余、特征高度相关、样本类别不平衡等特点以及医学研究对于数据挖掘结果的可理解性要求,使得传统的数据挖掘算法难以直接应用于医学数据挖掘任务中。随机森林算法是一种基于决策树的集成机器学习算法。一方面,随机森林因为具有分类精度高、运算速度快、能够从具有小边际效应和复杂相互作用的特征中识别主相关特征的优点,在医学数据分析中得到广泛应用;另一方面,有研究表明随机森林在类别不平衡数据集和高维数据集上,其分类能力和稳定性会受到削弱。针对医学数据集的特征高维性、冗余性、相关性以及样本类别不平衡等问题,本文以UCI标准数据集、糖尿病临床诊断数据集和基因芯片数据集为对象,研究了基于随机森林的特征选择和数据分类方法,主要开展了以下几个方面的工作。首先,针对医学数据集的样本类别不平衡问题,提出了一种基于有放回地随机重采样技术和集成机器学习思想的随机森林改进算法。该算法首先从原始训练数据集中利用有放回地随机重采样技术构建样本类别平衡的数据集,然后在每一个采样数据集上训练随机森林分类器,最后所有采样数据集上生成的随机森林分类器通过多数投票方式确定未知样本的分类类别。在UCI数据集上的实验结果表明,与传统的基于随机降采样和基于代价敏感的方法相比,本文提出的算法能够有效提高分类器的分类性能尤其是少数类样本的查全率。其次,针对医学临床数据集的高维特征空间和特征间高度相关问题,提出了一种基于随机森林的Filter式特征选择算法。该算法首先基于随机森林变量重要性分数对数据集中的特征进行排序,然后通过迭代实验确定特征选择的阈值,选取重要性分数最大的前若干个特征构成特征子集,最后在选出的特征子集上训练分类器。在UCI数据集和糖尿病临床数据集上的实验结果表明,基于随机森林变量重要性分数的算法的分类性能明显高于现有的基于特征子集区分度和特征相关性等度量的算法。再次,针对医学数据集特征之间高度相关和高度冗余的问题,提出了一种基于随机森林和序列联合搜索策略的Wrapper式特征选择算法。该算法利用随机森林善于从具有小边际效应和复杂相互作用的特征中识别主相关特征的能力,以随机森林变量重要性分数作为特征重要性度量,采用序列后向和序列前向相结合的序列联合特征搜索策略选择特征子集,以特征子集上分类器的分类正确率评价特征子集的质量,最后选择分类正确率最高的特征子集作为最优特征子集。在UCI数据集、糖尿病临床数据集和微阵列表达数据集上的仿真实验表明,本文提出的算法的分类正确率和特征子集质量均优于基于过滤式的方法和基于其它度量的方法。最后,针对微阵列表达数据集存在大量不相关特征、噪声特征和冗余特征的问题,提出了一种基于Filter和Wrapper相结合的随机森林特征选择算法。该算法首先采用Filter特征选择算法过滤掉与目标变量明显不相关的基因,然后采用基于随机森林的Wrapper特征选择算法选择最优特征子集。在Wrapper特征选择过程中,针对微阵列表达数据的特点,基于随机森林变量重要性分数,提出了序列前向特征选择和序列后向特征选择相结合、分层剔除冗余特征和不相关特征的特征搜索策略。在微阵列表达数据集上的仿真实验表明,本文提出的算法在分类正确率上优于现有的算法。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期
2 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
3 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
4 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
5 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
6 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
7 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
8 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
9 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
10 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
中国重要会议论文全文数据库 前10条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
2 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
3 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年
4 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
5 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
6 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
7 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
8 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
9 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
10 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026