收藏本站
《中国科学技术大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

多分类器集成系统在基因微阵列数据分析中的应用

刘昆宏  
【摘要】: 多分类器集成系统是当前机器学习领域的一个研究热点。由于使用多个基分类器构建的集成系统通常比单个优秀的分类器具有更强的泛化能力,因此多分类器集成系统为许多基于传统模式识别方法很难解决的分类问题提供了新的解决方案。 DNA微阵列技术是一种由物理学、微电子学与分子生物学等几个领域综合交叉形成的高新技术,该技术已经在医学与生物学上得到越来越广泛的应用,其中在癌症分析检测上的应用使得在大规模基因水平上深入研究癌症的发生、扩散等病理特征成为可能。特别地,进行可靠的癌症类型诊断与预测、癌症关键基因的识别和癌症的分类已成为当前癌症研究中的两项重要内容。尽管如此,由于微阵列数据具有数据维数高、样本数少的特点,因而使用常规的模式识别方法并不能总是获得理想的结果。本文主要针对多分类器集成系统在基因微阵列数据集上的应用进行了深入的分析与探讨,并设计了新的集成系统,以更好地解决微阵列数据的分类判别问题。 全文的主要工作概括如下: (1)从机器学习的角度分析,癌症关键基因识别问题的核心是特征选择问题。本文集合filter方法,分别设计了基于标准遗传算法和多目标遗传算法的集成特征选择方法。实验中,首先使用filter方法对基因进行初步筛选,进而使用遗传算法进一步实现特征选择,然后将所选择的一组特征子集分别用于构造基分类器,以生成集成特征选择系统。实验结果表明,所设计的集成特征选择算法能有效地选择合适的基因子集,而且这种集成系统获得了良好的识别性能。 (2)独立分量分析是一种近几年来新提出的线性变换方法,它已经成功地应用在微阵列数据分析上。本文借鉴了集成特征选择方法的思路,设计了集成独立分量选择系统。这种系统首先使用独立分量分析算法对微阵列数据进行线性变换,之后使用遗传算法选择合适的独立分量子集,并分别用于构建基分类器。由于使用这种方法能保证各个基分类器间的差异度,因此最后使用投票法将各个基分类器进行组合,即能构成稳健的集成系统。 (3)在应用于微阵列数据分析中,通常独立分量分析算法得到的独立分量集并不总是可重复的。本文利用独立分量集之间的差异,提出一种新的构造集成系统的思路。这个集成系统基于多目标遗传算法,通过对独立分量分析变换后获得的不同独立分量集分别进行筛选,从各个不同的独立分量集中分别获得较优子集,用以构建基分类器。实验结果表明,使用这种方法,能够获得差异度更大的基分类器,因而最终的集成系统具有更优的性能。 (4)旋转森林是一种新提出的多分类器集成系统,其特点在于使用线性变换方法生成旋转矩阵,使数据可以投影到不同坐标系中,从而构建有差异的分类器。由于这种系统要求数据集的特征维数不能过高,因此不能直接用在基因微阵列数据分析判别中。本文使用filter方法对基因微阵列数据进行降维,以获得适合旋转森林的数据集。此外,我们还引入独立分量分析技术作为一种新的产生旋转矩阵的方法。在两个常见数据集上的实验结果表明,旋转森林在基因微阵列数据判别中能获得较优的识别效果,并且基于独立分量分析的旋转森林能获得最佳的识别性能。 (5)关键基因选择与癌症类别判别方法对处理多类癌症微阵列数据集往往比对两类癌症数据集更困难。其原因在于对多类问题,每类的样本数少,且往往各个类别样本数不均衡。本文设计了一种基于子集成系统的遗传规划,以同时实现特征选择和类别判定。首先,算法将多类问题分解为多个两类问题,然后,在遗传规划算法设计中,使用规模较小的集成系统(称为子集成系统)来分别处理各个两类问题,并将这些子集成系统融合起来,以构成一个个体。由于每个个体都包含一组子集成系统,因此它具有较强的泛化能力,且能直接处理多类判别问题。本文给出了基于特征的差异度测度,并使用局部优化算法来确保各个子集成系统的差异度,从而进一步提高系统运行的效率。实验结果表明,本文设计的算法能同时有效实现关键基因的选择与癌症类别的判定。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP181

【引证文献】
中国博士学位论文全文数据库 前3条
1 夏俊峰;蛋白质相互作用及其结合面热点残基的预测方法研究[D];中国科学技术大学;2010年
2 褚娜;基于混合智能的中医辨证系统研究[D];上海交通大学;2012年
3 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
中国硕士学位论文全文数据库 前4条
1 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
2 陈磊;基于小波和CART算法的微阵列数据分类[D];山东轻工业学院;2011年
3 陈文;基于演化硬件的DNA微阵列数据分类方法研究[D];重庆邮电大学;2012年
4 宋丽;基于决策树的组合分类器的研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前3条
1 ;Rank sum method for related gene selection and its application to tumor diagnosis[J];Chinese Science Bulletin;2004年15期
2 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
3 陈英虎,汤永民,沈红强,宋华,杨世隆,石淑文,钱柏芹,徐卫群,宁铂涛;急性白血病细胞中CD_(19)的表达及其意义[J];中华儿科杂志;2004年03期
中国博士学位论文全文数据库 前1条
1 郑春厚;独立分量分析算法及其应用研究[D];中国科学技术大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 王春腾;杨厚群;符传谊;邢洁清;;基于独立成分分析的谱聚类方法[J];安徽电子信息职业技术学院学报;2011年03期
2 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
3 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期
4 陈乐;王年;苏亮亮;王蕊平;;基于邻接谱主分量分析的肿瘤分类方法[J];安徽大学学报(自然科学版);2011年04期
5 叶爱霞;王年;苏亮亮;;基于非负矩阵分解和Normal_Matrix的肿瘤基因分类[J];安徽大学学报(自然科学版);2012年03期
6 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
7 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
8 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
9 边晶;宋雅娟;;信息系统中的值约简算法研究[J];白城师范学院学报;2011年03期
10 李辉;赵立英;刘钦圣;王兵团;;应用遗传算法进行三次设计初探[J];北京交通大学学报;2006年06期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈立海;杨青真;孙志强;季新杰;;基于遗传算法与神经网络的翼型气动优化设计研究[A];第二十九届中国控制会议论文集[C];2010年
3 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
4 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
5 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
6 李胜朋;王洪礼;冯剑丰;;基于不连续回归树的最大李雅谱诺夫指数计算方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
7 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年
8 武进;尹恺;王长明;张家才;;SVDM在蔬菜病害图像分类中的应用[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
9 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 宋林峰;朱灿焰;郑博;;基于ICA和LWT的数字水印改进方案[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 乔梁;信源定位的可观测性及跟踪技术研究[D];哈尔滨工程大学;2010年
3 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
4 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
5 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
6 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
7 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
8 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
9 苏日建;信息测量系统及其若干问题的研究[D];华中科技大学;2010年
10 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑伟;MDL算法用于时间梯度设计试验猪骨骼肌基因调控网络分析上的研究[D];华中农业大学;2010年
2 岑忠;体感诱发电位实验系统的设计、测量与分析[D];南京医科大学;2010年
3 马冉冉;集成学习算法研究[D];山东科技大学;2010年
4 王萍;语音情感识别研究[D];山东科技大学;2010年
5 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
6 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
7 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
8 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
9 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
10 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郭振球;论中医诊断学的发展[J];安徽中医学院学报;1988年03期
2 曹美玲;张新峰;沈兰荪;;分类器融合技术在中医舌象老嫩识别中的应用研究[J];北京生物医学工程;2006年06期
3 高风琴;徐慧媛;李筠;;慢性乙型肝炎病理诊断与中医证型关系初探[J];北京中医药;2010年07期
4 李靖;王硕仁;徐冰;高菁;;基于关联规则的IgA肾病中医证候与病理相关性的探讨[J];北京中医药;2011年09期
5 王鸿谟,张栋;中医色诊学的定位定量研究[J];中国医药学报;1998年04期
6 洪净;中医辨证的量化研究现状与展望[J];中国医药学报;2002年08期
7 李赛;聂莉芳;孙红颖;;聂莉芳治疗慢性肾功能衰竭经验的关联规则分析[J];中华中医药杂志;2011年07期
8 赵卫东,盛昭瀚,杜雪寒;基于神经网络的案例推理医疗诊断[J];东南大学学报(自然科学版);2000年03期
9 陆慧娟;张金伟;马小平;杨小兵;;基于特征选择的过抽样算法的研究[J];电信科学;2012年01期
10 魏守水;韩庚祥;金伟;;基于金氏脉学的新型脉诊仪的研究[J];电子测量与仪器学报;2005年05期
中国重要会议论文全文数据库 前1条
1 李乾构;;改革辨证模式——按主症与次症辨证施治[A];中华中医药学会脾胃病分会第十八次学术交流会论文汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 孔志周;多分类器系统中信息融合方法研究[D];中南大学;2011年
3 王彦;中医证候的数据挖掘[D];上海交通大学;2009年
4 韩斌;基于数据挖掘的信息融合理论和应用[D];浙江大学;2002年
5 王明怡;微阵列数据挖掘技术的研究[D];浙江大学;2004年
6 刘直芳;人脸检测和识别的研究[D];四川大学;2004年
7 郑恩辉;基于支持向量机的代价敏感数据挖掘研究与应用[D];浙江大学;2006年
8 王兵;蛋白质相互作用及其位点的预测方法研究[D];中国科学技术大学;2006年
9 卢新国;基于DNA微阵列基因表达谱数据的癌症检测研究[D];湖南大学;2007年
10 蔡立军;基因分类及基因表达数据分析方法的研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 张脂平;因子分析算法的研究及其在Web文本特征提取中的应用[D];福州大学;2005年
2 王振华;基于决策树的分布式分类算法研究[D];郑州大学;2005年
3 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
4 朱晓峰;缺失值填充的若干问题研究[D];广西师范大学;2007年
5 张伟;基于进化算法的硬件演化基础研究[D];南京理工大学;2008年
6 邹清;基于AR模型的脑电信号特征提取与识别[D];中南大学;2008年
7 廖晓威;结合属性筛选的决策树分析及其在中医诊断中的应用[D];上海交通大学;2008年
8 盛高斌;基于半监督回归的选择性集成算法及其应用研究[D];浙江工业大学;2009年
9 徐春归;基于微阵列数据分析的肿瘤分类方法研究[D];中国科学技术大学;2009年
10 周维;二维人脸识别方法研究[D];浙江工业大学;2009年
【二级引证文献】
中国期刊全文数据库 前1条
1 欧阳玉梅;方若森;;蛋白质-蛋白质界面热点残基预测及其在线工具[J];生命科学;2012年01期
中国博士学位论文全文数据库 前1条
1 熊毅;基于机器学习的蛋白质结合位点特征化和预测方法研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前3条
1 罗慧萍;蛋白质—蛋白质相互作用界面和热点预测的方法研究[D];武汉科技大学;2011年
2 昝金行;几类重要蛋白—蛋白相互作用的分子模拟[D];北京协和医学院;2012年
3 刘诚;蛋白质相互作用界面中热点残基预测方法的研究[D];武汉科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前9条
1 李婷,邱天爽,牛杰;独立分量分析在脑电信号处理中的应用及研究进展[J];北京生物医学工程;2005年03期
2 梁越,方勇;一种应用于移动终端的语音盲分离算法[J];电声技术;2005年04期
3 张贤达,保铮;盲信号分离[J];电子学报;2001年S1期
4 丁佩律,梅剑锋,张立明,康学雷;基于独立分量分析的人脸自动识别方法研究[J];红外与毫米波学报;2001年05期
5 甘武,孙云莲;基于独立分量分析的工频通信中的谐波干扰消除[J];继电器;2005年10期
6 易尧华,余长慧,秦前清,龚健雅;基于独立分量分析的遥感影像非监督分类方法[J];武汉大学学报(信息科学版);2005年01期
7 王娟,罗述谦;独立变量分析及其在脑功能可视化中应用[J];系统仿真学报;2001年S2期
8 曾生根,王小敏,范瑞彬,夏德深;基于独立分量分析的遥感图像分类技术[J];遥感学报;2004年02期
9 姚毅,贾金玲,姚娅川;盲分离技术在识别生物信号中的应用[J];仪器仪表学报;2004年S1期
【相似文献】
中国期刊全文数据库 前10条
1 曾孝平;李君;余炜;蒲秀娟;;基于ICA方法和遗传算法的胎儿心电信号提取[J];数据采集与处理;2010年05期
2 尉宇,聂玉峰;自适应最优保存遗传算法在盲信号分离中的应用[J];武汉科技大学学报(自然科学版);2003年03期
3 谢平;李红亮;黄双峰;;一种盲源分离的优先进化自适应遗传算法[J];计算机仿真;2009年06期
4 蔡立军;林亚平;卢新国;易叶青;李小龙;;基于遗传算法的基因分类[J];电子学报;2006年11期
5 王振花;穆志纯;;基于独立分量分析和遗传算法的人脸性别分类[J];计算机科学;2010年04期
6 易叶青;林亚平;林牧;李小龙;王雷;;基于遗传算法的盲源信号分离[J];计算机研究与发展;2006年02期
7 李良敏;温广瑞;王生昌;刘红梅;;机械故障诊断的遗传-独立分量分析算法[J];农业机械学报;2008年11期
8 李良敏;温广瑞;王生昌;刘红梅;;基于改进遗传算法的独立分量分析算法[J];系统仿真学报;2008年21期
9 尹建芹;韩延彬;李金屏;;结合ICA与全局优化策略的人脸特征提取[J];计算机工程与应用;2010年23期
10 赖惠成;史家茂;;一种基于高阶互累计量的遗传盲反卷积算法[J];新疆大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
2 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
4 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
5 徐博艺;刘刚;李敏强;;遗传算法在非线性优化问题中的应用[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
6 李大伟;戴建设;李敉安;;遗传算法及其在神经网络学习算法中的应用[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
7 张莉;李久坤;赵德平;;用遗传算法解网络计划中的多资源优化问题[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
8 张健;石耀霖;;利用遗传算法从钻孔温度反演过去气温变化[A];1995年中国地球物理学会第十一届学术年会论文集[C];1995年
9 王直杰;方建安;邵世煌;;一种改进的遗传算法及其在神经网络学习中的应用[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
10 何翠红;区益善;;用sGA进行动态函数优化[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
中国重要报纸全文数据库 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 白水;演绎“美丽谋略”[N];上海金融报;2006年
3 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
4 中国科技大学计算机系 邢方亮;计算智能百花齐放[N];计算机世界;2003年
5 熊晓青;从数字偏好中寻找税务审计的突破口[N];中国税务报;2006年
6 金山 整理;正视得失 以利再战[N];证券时报;2006年
7 第一财经研究院房地产上市公司价值榜课题组;第一财经房地产上市公司价值榜——主分榜单[N];第一财经日报;2007年
8 沙坡头旅游公司 杨富国;着力提升旅游产业核心竞争力[N];中卫日报;2009年
9 中共嘉兴市委书记人大常委会主任 黄坤明;以城乡一体化总揽发展全局[N];中国经济时报;2004年
10 包家庆;IDS五大发展趋势[N];网络世界;2002年
中国博士学位论文全文数据库 前10条
1 刘昆宏;多分类器集成系统在基因微阵列数据分析中的应用[D];中国科学技术大学;2008年
2 孟宇;多维纹理合成及视频时域分割技术的研究[D];吉林大学;2007年
3 周仲兴;复合下肢想象动作电位的特征识别新技术研究[D];天津大学;2009年
4 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
5 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
6 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
7 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
8 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
9 崔晓芳;箱型结构焊接变形预测、控制及应用[D];大连交通大学;2005年
10 张材;薄带坯铸轧板形智能识别与控制系统研究[D];中南大学;2004年
中国硕士学位论文全文数据库 前10条
1 朱瑾;基于肤色和独立分量分析的人脸检测技术研究[D];华侨大学;2005年
2 刘洋;独立分量分析及其在脑电信号提取中的应用[D];大连理工大学;2006年
3 李君;基于独立分量分析方法的胎儿心电提取的研究[D];重庆大学;2009年
4 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
5 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
6 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
7 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
8 宋品;基于改进遗传算法的波束形成技术研究及其应用[D];西安电子科技大学;2010年
9 王辉;基于改进遗传算法的物流配送路径优化研究[D];山东科技大学;2010年
10 李臻;城市公交车辆智能调度优化研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026