收藏本站
《中国矿业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于基因表达数据的肿瘤分类算法研究

陆慧娟  
【摘要】:随着基因芯片技术的快速发展,越来越多的肿瘤基因表达数据得以测定。依据基因表达数据,在分子生物学水平上进行肿瘤早期诊断具有重要意义。及时、准确的诊断将有利于后续治疗的成效,而误诊则可能使癌症患者错过最佳治疗机会。然而,基因表达数据具有高维、分布不平衡、样本数量少等特点。怎样有效地分析、处理和利用此类数据引起学者们的广泛关注。针对肿瘤基因表达数据的分类问题,由于存在大量冗余基因及噪声,基因表达数据的分类性能尚未达到实用水平,当前的研究重点在于:①如何从高维数据中提取出少数关键的致病基因;②寻找最适合的分类算法并提高其分类性能。 本文主要借助神经网络和极限学习机(Extreme Learning Machine,ELM)来构建分类模型,预测肿瘤基因表达数据,提出的方法在多种肿瘤数据集和非肿瘤数据集上进行实验验证。主要研究工作如下: 1)针对高维基因表达数据降维问题,提出了一种基于信息增益和遗传算法的基因选择方法,将特征基因选择转化为全局优化问题。在遗传算法搜索阶段,把类间距离与类内距离之比作为适应度函数,设计与模型无关的基因选择算法,降低数据维数。实验表明,经选择得到的各个特征与分类目标密切相关,提高分类器的泛化能力。 2)针对基因表达数据的不平衡、小样本等问题,通过扩充小类样本规模和减少大类样本规模的思路以达到类别平衡。先经过特征选择过程保留对分类起关键作用的特征,再参照SMOTE过抽样理论,提出了FS-Sampling算法。实验表明,提出的方法能很好地平衡数据分布,能有效降低数据的不平衡性,明显提高少数类的分类精度。 3)为解决数据分布对神经网络模型逼近精度的影响以及单个ELM性能不稳定问题,从数据层面着手构建集成分类器,研究了基于数据集差异的集成策略,提出一种基于样本集分割的集成算法。首先,将样本集分割为k等份;然后,从其中k-1份中随机抽样组成训练样本集,重复迭代n次训练n个基分类器;最后,利用多数投票法进行分类器集成。实验证明,该算法能提高基分类器之间的差异度,有效提高集成分类精度。 4)针对单个ELM性能不稳定问题,从分类器输出结果差异的角度出发集成分类器,提出了一种基于输出不一致测度的ELM相异性集成算法(D-D-ELM)。首先,以输出不一致测度为标准对多个ELM模型进行相异性判断;然后,根据ELM的平均分类精度剔除相应的模型;最后,对筛选后的分类模型通过多数投票法进行集成。对该算法进行了理论证明和实验验证,实验结果显示该算法能够以更少的模型数量达到较稳定的分类精度。 5)针对降低决策风险、减少平均代价等问题,以最小分类代价为目标,探讨了嵌入拒识代价和非对称误分类代价的分类问题,提出了嵌入误分类代价和拒识代价的ELM算法。通过在算法中嵌入代价敏感因素,使得嵌入代价因素的ELM能够直接处理具有不同代价的数据。实验证明该算法能有效降低平均误分类代价,提高分类的可靠性。 综上所述,针对肿瘤基因表达数据分类任务中的挑战性问题,在解决高维小样本、数据降维和分布不平衡问题方面,综合提出了有效的基因选择和过抽样合成等方法。这些方法不仅可以提高分类器的性能,而且排除了大量无关基因干扰,有利于定位对疾病有鉴别力的特征基因,有助于相关疾病诊断。在数据分类中,提出了基于神经网络及ELM的集成分类模型,实现了基于数据集差异和分类器输出结果差异的集成算法,并在算法中嵌入代价敏感因素以体现肿瘤识别过程中不同数据的重要性。上述工作构建了一种适用于基因表达数据分类问题的算法框架,提高了肿瘤基因表达数据的分类精度,一定程度解决了该研究领域的难点问题,对于推进高维、不平衡数据的研究具有重要理论意义和实用价值。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘云如;蔡立军;易叶青;;基于G-ICA的组织样本分类算法[J];计算机工程与应用;2010年31期
2 何宏;谭永红;;基于计算智能的基因表达数据聚类分析研究进展[J];信息与控制;2009年06期
3 孙丽君;苗夺谦;;基于粗糙集的基因表达数据分类研究[J];计算机工程;2007年16期
4 孙喜晨;贺仁亚;封举富;;一种新的分类方法——属性均值聚类属性支持向量机(AMC-ASVM)[J];北京大学学报(自然科学版);2007年01期
5 孙喜晨;贺仁亚;封举富;;一种新的分类方法——属性均值聚类属性支持向量机(AMC-ASVM)[J];北京大学学报(自然科学版)网络版(预印本);2006年02期
6 李春涛;陈锋;白英龙;;一种反映数据生物特性的ART2神经网络[J];大众科技;2006年05期
7 王士同;修宇;;基于模型的基因表达聚类分析技术研究进展[J];江南大学学报(自然科学版);2006年03期
8 张黎;逄涣利;王小虎;王佳;;一种共调控基因C均值模糊聚类算法[J];计算机工程与应用;2010年07期
9 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
10 李巧;孔薇;;改进的非负矩阵分解在基因表达数据中的应用[J];信息技术;2010年12期
11 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[J];微电子学与计算机;2006年S1期
12 王艳;骆嘉伟;杨涛;吴君浩;;基于分段与运算的基因表达数据频繁项集挖掘[J];计算机工程与科学;2006年11期
13 曹晖;席斌;米红;;一种新聚类算法在基因表达数据分析中的应用[J];计算机工程与应用;2007年18期
14 寇晨艳;郭红;;基因表达数据的频繁模式挖掘算法[J];福州大学学报(自然科学版);2009年02期
15 朱娴;马卫;;一种基于层次聚类的双聚类算法[J];微计算机应用;2009年05期
16 陈春燕;张久彪;;双层结构的基因表达数据聚类算法[J];福建电脑;2009年04期
17 刘维;陈崚;;基因表达数据的并行双向聚类算法[J];小型微型计算机系统;2009年04期
18 蔡莉;郭红;;一种改进的基因表达数据双聚类算法[J];福州大学学报(自然科学版);2010年01期
19 宋东光;;MEDLINE摘要本地下载与更新及癌基因表达数据的文本挖掘(英文)[J];生物信息学;2010年03期
20 郭红;蔡莉;;采用多目标微分进化算法的基因表达数据双向聚类[J];小型微型计算机系统;2010年10期
中国重要会议论文全文数据库 前10条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
4 李鹏;阮晓钢;;一种预测多骨髓瘤的神经网络方法[A];第二十二届中国控制会议论文集(下)[C];2003年
5 杨波;卢学春;于力;朱宏丽;范辉;姚善谦;楼方定;;靶向上调ID4基因表达药物的生物信息学预测、分析和初步验证[A];第12届全国实验血液学会议论文摘要[C];2009年
6 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 房育栋;余英林;;高阶自组织映射及其学习算法[A];1995年中国控制会议论文集(上)[C];1995年
9 毛建旭;王耀南;;径向基函数神经网络的遥感图象分类[A];2001年中国智能自动化会议论文集(上册)[C];2001年
10 郑全第;李飞;张宏达;;基于神经网络BP模型分类器的武器装备水平年代评估[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 于翔;数字神经网络中的协同应用[N];网络世界;2009年
3 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
4 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
5 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
6 计算机世界实验室 韩勖;当布线系统遭遇神经网络[N];计算机世界;2009年
7 本报首席记者 任荃 实习生 史博臻;轨交“神经网络”触动创新神经[N];文汇报;2011年
8 曹建兵 李祖兵 特约记者 何天进 本报记者 于莘明;给导弹植入“神经网络”[N];科技日报;2005年
9 谭薇;“潮湿计算机”:拥有人类智慧的超级大脑[N];第一财经日报;2010年
10 ;人老了,大脑仍能形成新的神经网络[N];新华每日电讯;2004年
中国博士学位论文全文数据库 前10条
1 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
2 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
3 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
4 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
5 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
6 刘克钦;基于生物信号通路的复杂疾病标志物识别与研究[D];上海大学;2013年
7 王广云;肿瘤基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2009年
8 张志勇;系统生物学的两个课题研究[D];上海大学;2013年
9 蔡立军;基因分类及基因表达数据分析方法的研究[D];湖南大学;2007年
10 邱浪波;基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
2 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
3 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
4 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
5 张礼;寻找差异基因的概率方法研究[D];南京航空航天大学;2010年
6 沈小乔;基因表达数据分类算法及其应用研究[D];湖南大学;2005年
7 杨小涛;支持向量机算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
8 张彦琦;基因调控网络建立的数学模型研究[D];第三军医大学;2003年
9 李萍;基于基因表达数据的胃癌特征基因选取研究[D];北京工业大学;2009年
10 张志国;基于生成树基因表达数据聚类方法分析[D];东北大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978