收藏本站
《广西师范大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于粒子对和差分进化的基因聚类混合算法研究

禤世丽  
【摘要】:生物信息学是一门新兴的交叉学科,随着各种基因组计划的完成,生物信息学迅速发展,因此产生了大量的生物信息数据。数据库以及信息的增加,使得理解它们已经远远超出了人们的能力范围,导致收集在数据库中的数据信息变成了“数据坟墓”,但是猛增的数据背后隐藏着大量重要有价值的信息,如何从海量数据中挖掘出有用的信息已成为生物信息学迫切需要解决的问题。随着过去几年基因芯片技术的快速发展,使得同时操控成千上万基因的表达成为了可能。在这种情况下,产生了大量的基因芯片数据(基因表达数据)。从基因表达数据中找出具有相似表达的基因对人们的生活和研究都具有极为重要的意义。目前,聚类分析方法是对基因表达数据进行研究和处理的主要技术之一。通过对基因表达数据进行聚类分析,人们能够将表达模式相近或相同的基因归纳成一类,有助于对基因的表达功能、基因调控、细胞过程、细胞亚型等进行综合的研究,在补充未知基因生物学功能注释、临床诊断治疗等方面具有现实的意义。因此,已有大量国内外学者陆续提出了应用到基因表达数据聚类分析中的各种聚类算法。在早期基因表达数据聚类分析中最常用的方法是K-means聚类、分层聚类和自组织映射(self-organzing map, SOM)神经网络等。其中K-means聚类简单快速,但待聚类数目、初始聚类中心的选择、基因排列顺序以及基因表达谱数据的分布都会影响聚类结果。分层聚类容易实现,所得结果可以直接地观察基因之间的相互关系,但是分层聚类结果的后续分析复杂,并且聚类过程的合并选择带有主观性,计算量大,效率较低,而自组织映射能够自动提取样本数据的信息,是一种全局决策方法,但需人为设定聚类数目与学习参数,学习时间较长。由于这些聚类算法都各有优点和不足,面对指数增长的基因表达数据分析问题,人们迫切需要探寻高效和准确的聚类分析方法。而基于自然界生物特征开发出的计算智能方法已成为数据分析技术的新热点,将计算智能技术应用于生物基因数据聚类分析将为生物信息领域开辟新道路,鉴于目前基因表达数据聚类分析的缺点,2006年纪震等提出了基于标准粒子群算法(PSO)的粒子对算法(Particle-Pair Optimization,简称PPO),该算法在一些基因表达数据集中获得了较好的聚类效果,但也存在一些有待解决的问题。本文就是围绕如何进一步提高基因聚类算法的聚类效果展开研究,针对现有的PPO算法存在的缺陷进行改进研究,以取得更好的基因聚类效果,主要做的相关研究工作如下: (1) K-means是较早应用于基因聚类的算法,该算法运行速度快,原理简单,运算效率校高,但是对初始聚类中心较为敏感且需要预先设定待聚类数目,这对于一些未知的待聚类数聚类分析是不方便和不合理的。另外一种常应用在基因聚类分析中的算法是粒子群算法(PSO),粒子群算法是一种智能优化算法,该算法是模拟鸟类群体的行为,使得每个个体能够通过一定规则估计自身位置的适应值,每个个体能够记住自己当前所找到的最好位置和所有群体中找到的最好位置,使得个体在某种程度上朝这些方向靠近。粒子群算法在基因聚类分析中也取得了较好的聚类效果,但该方法也存在着容易陷入局部最优的缺陷。在传统粒子群优化算法的基础上,2006年纪震等提出了一种新的图像矢量量化码书的优化设计方法——粒子对算法(PPO),该算法用两个粒子构成了群体规模较小的粒子对,在解空间中搜索。在每次迭代运算中,粒子对先后按顺序执行粒子群算法中的速度、位置更新操作和标准K-means操作。PPO算法同样也可以应用于基因聚类中,应用到基因聚类中的实验结果表明,与K-means和FKM相比,聚类效果得到了改善。本文通过对最近提出的PPO基因聚类算法进行了较为深入的研究,分析了PPO基因聚类算法存在的一些不足之处,由于PPO算法采用的是随机初始化,如果初始化的粒子离最优粒子解距离较远,这就会影响聚类结果的精度。K-means和PSO是两种常用于基因聚类中的聚类算法,K-means聚类快速,但精度不是太高,而PSO聚类取得的聚类精度较好,但是时间开销较大。鉴于此基础,本文提出了对PPO算法的两种初始化的改进思路:①首先使用K-means算法快速聚类初始粒子,使得初始粒子更接近最优解,然后再进行PPO算法演化迭代,把该改进初始化算法命名为KPPO算法;②先用PSO算法寻找最优的K个初始聚类中心,即使用PSO聚类结果作为初始粒子,然后再进行PPO算法的迭代运算,将该改进初始化算法命名为SPPO算法。为了验证改进初始化思路的有效性和可比性,文章采用了数据库中与PPO算法基因聚类相同的数据集进行了聚类实验。实验结果表明,与K-means、基本PPO算法相比,采用的改进初始化思路在一些基因表达数据集中获得了较好初始粒子质量,与K-means和PPO聚类算法的聚类效果相比,聚类结果有了改善和提高。 (2)PPO算法由于仍然采用PSO算法的速度和位置更新公式,所以难以避免还会带入PSO算法易陷入局部最优的缺陷,而差分进化算法是一种具有较好全局搜索能力的智能算法。本文在对标准差分进化算法(DE)的原理、特点进行分析的基础上,结合PPO和DE算法的优点,采用前面介绍的初始化改进方法提出了两种新的基因聚类混合算法KPPO-DE和SPPO-DE算法。混合算法在PPO算法的第二阶段精英粒子对的迭代过程中根据一定的迭代次数将DE算法引入到PPO算法中,利用DE算法的全局搜索能力特点,使得个体朝着最优解靠近,并逐步逼近最优解,可以改善PPO聚类算法易陷入局部最优解的缺点,发挥二者的优势完成基因聚类,以提高聚类结果精度。为评价混合算法的聚类效果,本文对基因表达数据集进行了聚类分析实验。实验结果表明,混合算法KPPP-DE和SPPO-DE在一些基因表达数据的聚类评价指标均方差函数、类内紧致性和类间分离度上都获得了比K-means算法、PPO算法更好的聚类结果。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 纪震;廖惠连;许文焕;姜来;;粒子对算法在图像矢量量化中的应用[J];电子学报;2007年10期
2 王正华,王勇献;后基因组时代生物信息学的新进展[J];国防科技大学学报;2003年01期
3 张国印;程慧杰;刘咏梅;姚爱红;;一种新算法在基因表达谱聚类中的应用[J];计算机工程与应用;2009年36期
4 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
5 吴旻;生物信息学的发展[J];中国科学院院刊;1998年03期
6 刘波;王凌;金以慧;;差分进化算法研究进展[J];控制与决策;2007年07期
7 唐焕文,靳利霞;生物信息学的产生、发展及应用前景[J];洛阳师范学院学报;2001年02期
8 岳峰;孙亮;王宽全;王永吉;左旺孟;;基因表达数据的聚类分析研究进展[J];自动化学报;2008年02期
9 李松;王英;;生物信息学在生命科学研究中的应用[J];热带医学杂志;2009年10期
10 李维忠,王任小,林大威,毛凤楼,韩玉真,来鲁华;国内外生物信息学数据库服务新进展[J];生物化学与生物物理进展;1999年01期
中国硕士学位论文全文数据库 前2条
1 禤浚波;基于粒子对和极值优化的基因聚类混合算法研究[D];广西师范大学;2011年
2 高倩倩;基因表达数据的聚类算法研究及其实现[D];江南大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王朝霞;生物信息学:一门前沿交叉学科[J];安徽教育学院学报;2002年06期
2 孙琳琳;蒋继志;李丽;;生物信息学及在农作物抗性基因研究中的应用[J];安徽农学通报;2006年10期
3 赵伟,李莉,向太和,杨剑波;生物信息学初探[J];安徽农业科学;2000年01期
4 王勇;陈克平;姚勤;;系统发生分析软件PAUP和TreePuzzle使用方法介绍[J];安徽农业科学;2008年02期
5 王勇;陈克平;姚勤;;系统发生分析程序MrBayes 3.1使用方法介绍[J];安徽农业科学;2009年33期
6 汪雪红;焦清局;常盼盼;黄继风;;基于最小编码长度的基因数据聚类[J];安徽农业科学;2012年19期
7 叶良艳;;基于改进后的K-means聚类算法的网吧用户行为聚类[J];安徽科技学院学报;2009年04期
8 王雯雯;武栓虎;;基于DNA双链特征的启动子预测方法[J];北京交通大学学报;2009年06期
9 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
10 傅阳光;周成平;胡汉平;;无人飞行器海上航迹规划差分进化算法研究[J];兵工学报;2012年03期
中国重要会议论文全文数据库 前10条
1 孔笋;陈增强;;基于差分进化的QoS组播路由算法[A];第二十九届中国控制会议论文集[C];2010年
2 胡扬;桂卫华;;人工代谢技术在医药领域中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
3 王伟;张航;罗大庸;;基于核模糊C均值聚类和局部建模方法的烟气含氧量软测量模型[A];中国自动化学会控制理论专业委员会C卷[C];2011年
4 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
5 ;A Pareto-Based Differential Evolution Algorithm for Multi-objective Optimization Problems[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 李天瑞;;DNA序列分析的理论基础及挖掘算法研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
7 李继;高岳林;;考虑交易成本的M-VaR投资组合模型及算法研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
8 仲妍妍;李昂;王寿昆;王光瑛;;番鸭全血基因组DNA的提取与克隆[A];福建省科协第六届学术年会卫星会议“增强科技创新能力,促进优质畜牧业发展”研讨会论文集[C];2006年
9 葛剑徽;李成;谢迅雷;;生物信息学发展现状与前景展望[A];2008年中华临床医学工程及数字医学大会暨中华医学会医学工程学分会第九次学术年会论文集[C];2008年
10 孙琳琳;蒋继志;;生物信息学及其在作物抗性基因研究中的应用[A];中国植物病理学会2006年学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 孙鹏飞;基于计算智能技术的蛋白质结构预测方法研究[D];哈尔滨工程大学;2010年
2 朱少敏;多媒体数字水印若干关键算法研究[D];中国电力科学研究院;2010年
3 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
4 张明明;面向量子可逆逻辑自动综合的多目标进化算法研究[D];东华大学;2010年
5 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
6 焦竹青;变换域中的多源图像融合方法研究[D];江南大学;2011年
7 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
8 董旭初;Bayesian网的最优树分解研究[D];吉林大学;2011年
9 赵鹏;离心泵振动故障诊断方法研究及系统实现[D];华北电力大学(北京);2011年
10 刘晨光;氧化还原电位调控的高浓度乙醇发酵及其机理研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
2 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
3 关西贞;小麦抗白粉病近等基因系的差异蛋白质组学研究[D];山东农业大学;2010年
4 吕俊杰;真核基因剪接位点识别算法研究[D];哈尔滨工程大学;2010年
5 张磊;人类复杂疾病基因编码区碱基突变特征分析[D];辽宁师范大学;2010年
6 胡翔;杨树与玉米细胞周期蛋白基因家族全基因组研究[D];安徽农业大学;2010年
7 王维维;玉米全基因组中FKBP基因进化及其表达分析[D];安徽农业大学;2010年
8 战晓文;基于完全基因组且无序列比对的用于亲缘分析的严格距离度量[D];湘潭大学;2010年
9 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
10 卓立;中国滨藜亚科的地理分布与分子系统学研究[D];新疆农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王修竹;刘自伟;齐阳;鲍竞;;基因表达数据的预处理方法[J];兵工自动化;2006年07期
2 阮晓钢;李晓明;王金莲;;边介数聚类算法在肿瘤基因表达谱中的应用[J];北京工业大学学报;2008年07期
3 谢成山,牛纪海,徐济仁;DM技术及其在数据处理中的应用[J];电讯技术;2003年02期
4 徐志高,关正西,张炜;模糊神经网络在导弹动力系统多故障诊断中的应用[J];弹箭与制导学报;2005年01期
5 王莉,吴玉章,林治华,石统东;分子模拟在筛选HLA-A2.1高亲和性MART-1 CTL表位中的应用研究[J];第三军医大学学报;2002年10期
6 李霞,罗雪晖,张基宏;基于人工蚁群优化的矢量量化码书设计算法[J];电子学报;2004年07期
7 纪震;廖惠连;许文焕;姜来;;粒子对算法在图像矢量量化中的应用[J];电子学报;2007年10期
8 王长本,刘兴晖,王伟灵,周新;基因表达数据的聚类分析[J];国外医学(临床生物化学与检验学分册);2004年04期
9 王富刚,陈先农;基因芯片数据的聚类分析[J];国外医学(生物医学工程分册);2004年02期
10 张吴明,钟约先;基于改进差分进化算法的相机标定研究[J];光学技术;2004年06期
中国博士学位论文全文数据库 前1条
1 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年
中国硕士学位论文全文数据库 前2条
1 梅丽;人类启动子识别算法研究[D];辽宁师范大学;2010年
2 高倩倩;基因表达数据的聚类算法研究及其实现[D];江南大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 闵克学;葛宏伟;张毅;梁艳春;;基于蚁群和粒子群优化的混合算法求解TSP问题[J];吉林大学学报(信息科学版);2006年04期
2 芦玉梅;姜伟;;变长度可重复自然数编码的混合算法在模具异地制造调度中的应用[J];机械设计与制造;2006年11期
3 宋晓宇;朱云龙;尹朝万;李富明;;应用混合蚁群算法求解模糊作业车间调度问题[J];计算机集成制造系统;2007年01期
4 宁黎华;古天龙;;装配序列规划问题求解的一种混合算法[J];计算机集成制造系统;2007年04期
5 陆克中;王汝传;章家顺;;最优化问题全局寻优的PSO-BFGS混合算法[J];计算机应用研究;2007年05期
6 王伟;;混合粒子群算法及其优化效率评价[J];中国水运(学术版);2007年06期
7 陈娟;刘继承;孔维华;;P2P网络构架下路径查找的优化算法[J];计算机与数字工程;2008年10期
8 庄艺锋;;基于遗传/自适应神经网络混合算法求解作业车间调度问题[J];漳州师范学院学报(自然科学版);2008年03期
9 黄华娟;周永权;;最优化问题全局寻优的AFSA-BFGS混合算法[J];计算机工程与应用;2009年01期
10 陈晶;潘全科;;求解独立任务调度问题的改进粒子群算法[J];微电子学与计算机;2009年01期
中国重要会议论文全文数据库 前10条
1 赵宇海;印莹;王国仁;许光宇;王之琼;;最大子空间共调控基因聚类[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 赵宇海;印莹;王国仁;许光宇;;挖掘微阵列数据集中的最大局部保守基因聚类[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 游波;张明敏;;基于MFP/LTI积分混合算法的贝叶斯检测阈问题研究[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
4 史琰;梁昌洪;;应用傅立叶伪谱时域算法与高阶时域有限差分方法的混合算法到2.5维问题中[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 贾宁;陈庚;郭中源;陈岩;;混合算法在分数判决反馈均衡器中的应用[A];2008年全国声学学术会议论文集[C];2008年
7 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
8 余建军;孙树栋;;模拟退火免疫混合算法[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
9 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 李嘉;王梦光;唐立新;宋建海;;求解异种车队车辆路径问题的混合遗传算法[A];2001中国控制与决策学术年会论文集[C];2001年
中国重要报纸全文数据库 前3条
1 唐慧;让电子邮件更安全[N];网络世界;2002年
2 记者 宋广平;多方联手进军IPTV市场[N];计算机世界;2005年
3 曹秀敏;物料平衡的控制核算系统[N];中国石化报;2002年
中国博士学位论文全文数据库 前10条
1 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
2 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
3 汤炜;ADI-FDTD及其混合算法在电磁散射中的应用[D];西安电子科技大学;2005年
4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
5 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
6 朱剑;复杂电磁问题的有限元、边界积分及混合算法的快速分析技术[D];南京理工大学;2011年
7 李晓明;一种新型混合优化算法及其在优化油田开发中的应用[D];西南石油学院;2004年
8 王蕊;粗糙面及其与目标复合电磁散射中的相关问题研究[D];西安电子科技大学;2009年
9 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
10 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 禤浚波;基于粒子对和极值优化的基因聚类混合算法研究[D];广西师范大学;2011年
2 禤世丽;基于粒子对和差分进化的基因聚类混合算法研究[D];广西师范大学;2012年
3 李嘉;电力系统暂态稳定分析的混合算法[D];广西大学;2005年
4 许宁;对粒子群算法的改进及应用[D];浙江大学;2006年
5 马江涛;基于遗传与蚁群的混合算法路径优化研究[D];湖北工业大学;2011年
6 郭晓妮;基于TSP问题的遗传蚁群混合算法研究[D];内蒙古科技大学;2011年
7 王莉;OFDM系统中的PAR抑制[D];四川大学;2005年
8 李慧玲;基于列队竞争算法的混合算法研究及其在化工过程系统中的应用[D];武汉理工大学;2007年
9 田甜;动态无功优化实用模型及启发式混合智能算法研究[D];重庆大学;2008年
10 吴晶;基于混合算法的配电网优化规划[D];华北电力大学(河北);2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026