收藏本站
收藏 | 论文排版

基于乳腺癌基因表达数据的特征选择算法研究

张颖  
【摘要】:近年来,随着发病率和死亡率的持续升高,癌症已经成为影响人类健康的重要因素之一。乳腺癌作为女性疾病中最常见的恶性肿瘤,严重危害着女性的健康。在目前的医疗设备和医学技术背景下,早期诊断和早期治疗成为治疗乳腺癌的关键手段。随着机器学习技术的不断发展,机器学习算法能够以更简单、更有效的方式检测出患癌症的风险,从而达到降低癌症发病率的目的。依托机器学习的背景,基因检测手段也在不断地发展。肿瘤的产生和发展与基因密切相关,将基因表达数据用于乳腺癌的早期诊断对乳腺癌的发现和识别具有重要的意义。使用机器学习相关算法对基因表达数据进行特征选择及分类来预测癌症发病情况,已成为癌症分类领域的热点问题。基因表达数据具有高维度的特点,然而高维度特征集合中包含着大量与癌症无关的数据。因此需要对其使用特征选择方法,筛选出与乳腺癌有关的特征基因集合。传统的特征选择方法,如卡方检验、决策树和信息增益等,通常存在不能有效去除特征冗余、时间复杂度高和过拟合等缺点。因此,如何选用合适的特征选择方法成为本文研究的重点问题。本文在国内外学者对乳腺癌特征基因选择算法的研究基础上,提出了三种新的基于机器学习的特征选择算法Ave-mRMR、RFFS-GS和SVM-RFE-PO算法。首先通过使用上述三种特征选择方法筛选出与乳腺癌有关的特征基因子集,再将选择出的最佳特征子集分别用于支持向量机分类器和Bootstrap-SVM集成分类器进行乳腺癌分类,从而得到更有效的特征选择算法。本文主要研究工作包括以下四个方面:(1)在传统的特征选择算法mRMR算法的基础上,提出了一种引入互信息标准化的Ave-mRMR算法。该算法在去除冗余特征的同时保证了特征与类别间的最大相关性,并且平衡了特征间的相关性和冗余性。本文在DNA微阵列数据集和RNA-seq基因表达数据集上分别采用上述两种特征选择算法选择特征基因,并使用选择出的最佳特征基因子集进行乳腺癌分类。实验结果表明,改进后的特征选择算法Ave-mRMR能够更准确地选择出与乳腺癌相关的基因。(2)在基于随机森林的特征选择算法RFFS的研究基础上,提出了一种基于参数优化的RFFS-GS算法模型。该模型将网格搜索算法(GS)应用到RFFS算法的参数寻优过程中,先使用网格搜索算法进行参数寻优,然后将得到的最优参数值应用到RFFS算法中随机森林的构建过程,最终得到一种更精确、更有效的特征选择算法RFFS-GS。本实验通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述两种特征选择算法选择特征基因,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。其结果表明,改进后的RFFS-GS算法能够进行更有效的特征基因选择。(3)在基于支持向量机的递归特征消除算法SVM-RFE的研究基础上,提出了一种基于参数优化的特征选择方法SVM-RFE-PO,即基于支持向量机的递归特征消除和参数优化算法。通过应用网格搜索算法(GS)、粒子群算法(PSO)和遗传算法(GA)搜索特征选择过程中的最优参数值,提出了三种新的特征选择方法:基于支持向量机的递归特征消除和网格搜索寻优算法(SVM-RFE-GS)、基于支持向量机的递归特征消除和粒子群寻优算法(SVM-RFE-PSO)和基于支持向量机的递归特征消除和遗传寻优算法(SVM-RFE-GA),本文将上述三种算法统称为SVM-RFE-PO算法。本实验首先通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述四种特征选择算法进行特征基因的选择,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。实验结果表明,SVM-RFE-PSO算法具有更高效的特征基因选择性能。(4)提出了一种基于Bagging算法的Bootstrap-SVM集成分类器模型。该模型主要通过Bootstrap采样方法获取训练集的不同子集,通过训练集的差异性获得具有差异性的基分类器。然后采用一定的组合策略将训练后产生的若干个弱分类器集成为一个强分类器Bootstrap-SVM。实验表明,集成分类器Bootstrap-SVM的分类准确率要高于单分类器SVM的准确率。本文基于不同的参数优化方法对现有的特征选择算法进行了改进,针对不同特征选择模型所得到的特征子集进行分类实验后发现,改进后的特征选择算法明显具有更高效的特征选择能力。因此,对特征选择算法进行参数优化是一个非常有意义的课题。


知网文化
【相似文献】
中国期刊全文数据库 前15条
1 吴中华;郑玮;;基于?_(2,1)范数的在线流特征选择算法[J];计算机与数字工程;2019年06期
2 代琨;于宏毅;马学刚;李青;;基于支持向量机的特征选择算法综述[J];信息工程大学学报;2014年01期
3 陈建华;王治和;蒋芸;许虎寅;樊东辉;;一种改进的文本分类特征选择算法[J];微电子学与计算机;2011年12期
4 杨耀;李四海;;一种基于互信息的基因数据特征选择算法[J];信息与电脑(理论版);2021年20期
5 赖文辉;朱定局;贺超;黄立;郑泳智;李英;;面向高新企业审计数据的特征选择算法研究[J];科技创新发展战略研究;2020年06期
6 刘兆赓;李占山;王丽;王涛;于海鸿;;森林优化特征选择算法的增强与扩展[J];软件学报;2020年05期
7 史彩娟;谷志斌;;基于自步学习的半监督特征选择算法研究[J];电脑知识与技术;2020年15期
8 张文静;王备战;张志宏;;基于图的特征选择算法综述[J];安徽大学学报(自然科学版);2017年01期
9 孙刚;张靖;;面向高维微阵列数据的集成特征选择算法[J];计算机工程与科学;2016年07期
10 李占山;杨鑫凯;胡彪;张博;;差分进化樽海鞘群特征选择算法[J];吉林大学学报(信息科学版);2021年01期
11 姜文煊;段友祥;孙歧峰;;基于交互信息的混合特征选择算法[J];应用科学学报;2021年04期
12 刘云;肖雪;黄荣乘;;类依赖特征选择算法在文本分类中的优化研究[J];计算机与数字工程;2021年10期
13 陈超逸;林耀进;唐莉;王晨曦;;基于邻域交互增益信息的多标记流特征选择算法[J];南京大学学报(自然科学);2020年01期
14 张自敏;;大数据中基于稀疏投影的在线特征选择算法[J];湖南科技大学学报(自然科学版);2018年03期
15 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期
中国重要会议论文全文数据库 前11条
1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
2 陈伟海;李建军;赵志华;曹丹阳;李晋宏;;数据挖掘特征选择算法研究及其在铝电解中的应用[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年
3 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
5 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李文法;段洣毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年
9 杨宏晖;李江涛;甘安琴;姚晓辉;;用于水下目标识别的无监督谱特征选择算法[A];2016年中国造船工程学会水中目标特性学组学术交流会论文集[C];2016年
10 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
11 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
中国博士学位论文全文数据库 前20条
1 田肃岩;吸纳通路信息识别相关基因的特征选择算法的研究[D];吉林大学;2018年
2 黄鑫;基于特征关联关系的特征选择算法研究[D];大连理工大学;2018年
3 高万夫;基于序列前向选择策略的过滤算法研究[D];吉林大学;2019年
4 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年
5 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
6 蔡洁;基于信息差异性分析的特征选择算法研究[D];湖南大学;2019年
7 宋贤芳;问题知识驱动的粒子群特征选择算法研究[D];中国矿业大学;2021年
8 郑玮;基于稀疏、低秩理论的特征选择算法研究[D];南京理工大学;2020年
9 周鹏;在线流特征选择算法研究[D];合肥工业大学;2018年
10 史彩娟;网络空间图像标注中半监督稀疏特征选择算法研究[D];北京交通大学;2015年
11 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
12 崔雪婷;基于结构化数据的特征选择算法研究[D];吉林大学;2021年
13 张平;基于多标签的特征选择算法研究[D];吉林大学;2021年
14 顾翔元;基于信息度量的特征选择算法研究及应用[D];天津大学;2020年
15 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年
16 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
17 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
18 王剑桥;基于局部特性的毫米波距离像识别方法研究[D];南京理工大学;2014年
19 耿耀君;高通量数据特征选择算法研究[D];西安电子科技大学;2013年
20 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前20条
1 袁国文;半监督特征选择算法研究[D];深圳大学;2019年
2 陈飞;标记倾向性和数据流特征选择算法研究[D];安庆师范大学;2019年
3 陈俊颖;特征选择算法在基因表达数据分类中的应用[D];中国计量大学;2018年
4 姜琳;弱标记特征选择算法研究[D];西南大学;2019年
5 刘畅;非线性规划形式的多标签特征选择算法的研究[D];南京师范大学;2019年
6 周丹;多方法融合的智能终端检测及应用识别[D];重庆邮电大学;2019年
7 陈红;嵌入式多标签特征选择算法研究[D];西安工程大学;2019年
8 孙七凡;抗癌药物反应预测模型中的特征选择算法研究[D];大连理工大学;2019年
9 樊鑫;基于粗糙集的混合数据的半监督特征选择算法研究[D];西南交通大学;2019年
10 李森;基于多目标进化优化的癌症数据特征选择算法研究[D];安徽大学;2019年
11 郭伟;大样本高维数据下基于进化多目标优化的特征选择算法研究[D];安徽大学;2019年
12 唐莉;基于样本差异性分析的多标记特征选择算法研究[D];闽南师范大学;2019年
13 李昌聪;基于代价敏感的特征选择算法研究及应用[D];兰州大学;2019年
14 李飞;基于层次聚类的生物数据特征选择算法的研究与实现[D];吉林大学;2019年
15 张颖;基于乳腺癌基因表达数据的特征选择算法研究[D];西南大学;2019年
16 王礼琴;半监督多标记特征选择算法研究[D];湖南师范大学;2019年
17 王颖;基于乌鸦搜索算法的特征选择算法的研究及改进优化[D];吉林大学;2019年
18 赵凯;Android恶意应用检测中特征选择算法的研究[D];湖南大学;2016年
19 赵军;基于Top-r方法的特征选择算法研究[D];湖南大学;2014年
20 樊力文;基于Spark的稳定特征及流式特征选择算法研究[D];河南大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978