收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于DNA计算的聚类算法研究

张鸿雁  
【摘要】:DNA计算作为较新兴的跨学科技术在理论和技术上已经有了很大的进展,在解决NP问题上有着很大的优势。它把数学和生物有机的结合起来,用生物工具来解答数学问题,其本质就是利用大量不同的核酸分子杂交,产生类似某种数学计算过程的组合的结果,并对其进行筛选来完成。 随着当今信息化产业的发展迅速,大量的信息需要进行数据分析,聚类分析发挥着重要的作用。许多聚类算法都与图有关,最典型的是层次聚类、网格聚类和图聚类。 本课题把聚类中的数据对象转化成为图中的节点,那么簇的生成就转化为节点的组合问题,进而把善于解决组合问题的DNA计算应用到聚类中去,在DNA计算应用中是新的尝试,也为聚类分析提供了新的思路和方法。 本文的研究内容如下: (1)利用面向对象方法学分析并描述DNA计算的相关概念和技术。 (i)有关DNA计算的概念类图,包括各种类型的DNA分子类图。通过分析DNA分子不同类型之间的关系以及转化过程,建立它们之间的相互转化关系类图。通过该类图可以明确某类型DNA分子是由另外哪种DNA分子在什么条件下转化而来的; (ii)通过分析基本生化操作的过程,建立关于杂交、连接、聚合、退火和电泳等常用生化操作的顺序图。利用顺序图可以清楚的了解生物反应的全过程,并可以应于计算机的模拟程序设计,为将来的计算机模拟实验提供基础。 DNA计算的面向对象描述与建模不仅可以为计算机模拟生化反应提供编程基础,还可以从计算机科学的角度了解DNA计算的基本概念和相关技术,为DNA计算与软计算的结合提供支持。 (2)利用DNA计算进行聚类。 (i)论文分析了聚类问题的本质,将其转化为可以采用DNA计算解决的组合优化问题或者图论问题。对于样本数据对象的聚类就是一种样本数据的组合方式,这种组合方式保证了类内的样本数据之间的相似度高,而类之间的样本数据相似度低,DNA计算可以获得关于样本数据的所有组合,然后再通过生化反应从中提取出最优的聚类结果。论文还在第三章建立了聚类算法的DNA计算过滤模型和粘贴模型,过滤模型是在Adleman最小模型的基础上建立的,是最常用,也是最简单、易实现的DNA计算模型。粘贴模型现在最常应用于图论问题,因此可以应用于由图论问题表示的聚类分析。论文提出了一种新的思路:将网格转化为“米字图”,在“米字图”中求得候选节点的聚类,进而在理论上证明了将该问题转化为哈密尔顿问题的可行性,证明了DNA计算进行网格聚类的可行性和正确性。 (ii)论文提出了基于DNA计算的层次聚类算法。在第四章中把层次聚类转化为最小生成树的问题,从而利用DNA计算来解决该问题。提出了聚类算法的DNA计算过滤模型和粘贴模型,同时给出了基于过滤模型的编码方案和生化反应设计。 (iii)论文把DNA计算应用到网格聚类方法中。把单元格缩小为一个节点,网格的特殊结构就变成一种特殊的“米字图”。在五章中论文提出了基于“米字图”的过滤模型和粘贴模型,并给出了基于过滤模型的四种不同的编码方案和生物实验设计。这四种编码方案利用节点、边、坐标的不同组合,各有其优点和应用性,但在给出的通用过滤模型下都是可用的,可以使用同一个DNA计算算法,而生物实验又是有区别的,因为生物实验需要根据不同的编码方案设计不同生物操作细节。粘贴模型的建立增加了网格聚类使用DNA计算机的可能,在芯片化和生物技术成熟后将得到更为广泛的应用。 (iv)第六章关于DNA计算的图聚类中的应用。主要包括利用聚类技术解决图像聚类问题,对图进行分割。提出了利用k-medoids算法进行图像分割的DNA过滤模型,并给出了编码方案和生物实验设计。该编码方案根据将图像中的像素点看作是样本数据点,灰度值看作是样本数据点的属性,设定一定的灰度值作为聚类的质心,利用k-medoids的思想将坐标表示的像素点和与质心灰度值的差进行组合,得到节点链和质心链,将其放入试管中参与DNA计算反应。由于DNA存储能力和并行反应特性,在处理大量数据集时比计算机会更加有效率,该算法在面对图像的百万级像素时将显现非常大的优势。 (3)第七章在已提出的基于DNA计算的聚类理论思想的基础上,进一步通过实验来证明其可行性和效果。 (i)通过计算机模拟整个生化反应过程。实验基于节点和边编码方案的网格聚类,通过模拟连接反应获得所有可能解,再通过模拟生物实验将聚类结果解出。该模拟程序完全按照DNA计算的生物实验原理,生成所有可能解,该实验将花费大量的时间,因此聚类的数据量较小,但可以证明编码方案的可行性和DNA计算算法的正确性。 (ii)利用并行计算算法模拟整个生化反应过程。由于并行反应时DNA计算的巨大优势,所以实验将连接反应分配到每个DNA分子链上进行,该程序运行所获得的运算时间就是包含最多节点的簇的聚类时间。该实验从并行反应的角度验证了DNA计算的并行优势,并应用于规模较大,形状较复杂的数据集中,聚类效果同原聚类算法相同,而计算时间要比串行和原聚类时间少。 (iii)建立模型来证明其可行性。采用坐标的编码方式,并改进了DNA连接过程的扫描方式,提高了计算机的模拟速度,实现起来较为简单。本实验可以很好的证明理论思想的可行性,并应用于较复杂的样本数据点。在该实验中给出了一种模拟扫描邻居节点的方法,该方法既可以节省扫描时间,又可以避免非解和重复链的生成。 (iv)与原有的CLIQUE算法做了比较,发现程序的运算时间只与候选节点的数量和结构有关,如果样本数据点较为紧密,那么运算时间小,如果分散则运算时间长。聚类效果上和原有的聚类算法没有任何差别。与Bakar提出的基于DNA计算的聚类算法比较,由于网格聚类的优势,使得聚类时间大大缩短,并且编码设计上也具有一定的优势。 (4)给出了一套生物实验过程,包括编码设计方案、生物实验算法以及生物实验过程。详细描述了如何利用DNA计算进行聚类分析的生化实验操作步骤,并得到的预期效果。 (4)算法复杂度的讨论分为两个方面:一个是在计算机模拟的基础上对基于DNA计算的聚类算法进行了复杂度的讨论,在计算机编程基础上,讨论按照计算机编程的思想分析DNA计算的时间复杂度;另一个是DNA计算算法的复杂度讨论,讨论了生化实验的消耗和反应时间。 (5)论文还给出了一种生成符合热力学约束条件的DNA短链的遗传算法,用于模拟实验。该算法可以生成较短的一定数量的符合热力学约束条件的DNA单链分子,可用于计算机模拟实验和真正的生物实验中。 (6)论文在第八章将DNA计算应用到三种不同的领域中,分别是山东省17城市的区域划分、乳腺癌患者的术后情况和图像分割处理。采用层次聚类的方法对山东省的17个城市进行了聚类,通过模拟DNA计算获得了聚类结果,可以将17个城市划分为三个零售商的区域,区域内的城市会有一条最短路径相连,对物流和区域运输都是有益的。利用网格聚类对UCI提供的真实医学数据集进行了聚类,该数据是三维数据,首先将数据降到二维,利用DNA计算获得二维聚类结果,在取交集得到三维的聚类结果。将DNA计算应用到图像分割中,处理了车牌辨识和手写辨识两幅图片,并利用k-medoids算法对有背景的手写辨识进行了三类分割,将图像分割为背景、黑色和白色,更能清楚的辨识重要信息。 论文提出的新的基于DNA计算的聚类算法研究,为聚类算法研究提供新的工具,同时为DNA计算开辟新的应用邻域。随着数据库的越来越庞大,数据挖掘在数据存储和处理速度等方面都提出了更高的要求,由于DNA计算的海量存储特性及其计算的并行性,在解决聚类问题方面有着极大的潜力,不论在生物信息领域,还是数据挖掘领域都有着重要意义。论文遗憾之处没有进行生物实验,但所提出的模型、算法和编码设计都是建立在原有的模型和生物实验的基础上的,依据原有模型的正确性说明论文中提出的理论是可行的,并且在理论方面和计算机模拟方面都得到的证明和验证。
【学位授予单位】:山东师范大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 程琼,彭图治;红四氮唑作为电化学嵌合剂的核酸杂交生物传感器[J];高等学校化学学报;2002年09期
2 邵耀椿,杨晓锋,丁海东,封国林;激光辐照DNA导入番茄细胞色素氧化酶的研究[J];应用激光;2003年04期
3 孟丽囡,陈永真;生物光电分析芯片的研制[J];传感器世界;2004年03期
4 庞代文,颜蔚;基因传感技术及目前存在的问题和发展对策[J];高等学校化学学报;2001年03期
5 余志文,于军,徐静平,周文利;神奇的基因芯片[J];电子元件与材料;2000年06期
6 贾青;分布式自动化系统网络应用结构[J];计算机自动测量与控制;2001年01期
7 沈雪松,刘义,赵儒铭,周传佩,屈松生;抗肿瘤药物与DNA相互作用的热动力学规律[J];中国科学基金;2000年02期
8 唐伟跃,侯晓强,张建民;γ射线、β射线诱变固体DNA的发射光谱研究[J];激光杂志;2003年06期
9 张灿邦,周凌云,戴志福,任兆鸿,吴光敏;激光与电场在滇稻育种中的微观作用机制分析比较[J];应用激光;2004年01期
10 谢凌广;基于生产/消费模式的Controtl Net网络技术[J];电工技术杂志;2001年12期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 刘海英;陈刚;步宇翔;;碱基对的多铜修饰对DNA导电性的增强作用[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年
3 赵宏远;李俊杰;桑润滋;;单细胞凝胶电泳技术检测不同处理山羊精子DNA损伤[A];中国畜牧兽医学会动物繁殖学分会第十五届学术研讨会论文集(下册)[C];2010年
4 刘玲;付强;朱化彬;彭秀丽;郝海生;杜卫华;赵学明;王栋;;牛毛囊基因组DNA制备方法的比较研究[A];中国畜牧兽医学会动物繁殖学分会第十五届学术研讨会论文集(上册)[C];2010年
5 梁春柳;;一个新的筛选化合物与DNA交互作用的简便方法[A];2010年全国药物毒理学学术会议论文集[C];2010年
6 张文众;李永宁;方瑾;梁春来;张倩男;;体外新评价方法——完整细胞核DNA检测板[A];全国生化/工业与卫生毒理学学术会议论文集[C];2010年
7 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
8 邹丹丹;汪海林;;基于DNA甲基化结合蛋白MBD的甲基化分析[A];中国化学会第28届学术年会第2分会场摘要集[C];2012年
9 张晔;杜智;杨斌;高英堂;;检测外周血中游离DNA的应用前景(综述)[A];天津市生物医学工程学会第29届学术年会暨首届生物医学工程前沿科学研讨会论文集[C];2009年
10 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 陈杰;信息技术将重组汽车DNA[N];科技日报;2010年
2 刘霞;科学家研发出新型人工合成DNA载体[N];科技日报;2010年
3 南方;化危为机 企业需韧性生长的DNA[N];中国企业报;2009年
4 吴强;港大引新技术DNA辨食材[N];中国食品质量报;2010年
5 本报记者 施晓焰 通讯员 马丽娟;云南:DNA数据库成“打拐”得力帮手[N];人民公安报;2009年
6 张巍巍;垃圾DNA可促进癌症发展首获证实[N];科技日报;2010年
7 常丽君;虱子DNA表明人类17万年前首次穿衣[N];科技日报;2011年
8 记者 冯卫东;DNA碱基序列决定其光敏性假设获证实[N];科技日报;2008年
9 许文强;拆、装更便捷的DNA双螺栓结构模型[N];大众科技报;2008年
10 记者 常丽君;研究人员发现自组装DNA链的最佳长度[N];科技日报;2010年
中国博士学位论文全文数据库 前10条
1 郭晓兰;端粒功能异常诱导的DNA损伤反应及其在肿瘤发生中的作用与分子机制[D];重庆医科大学;2010年
2 陈志健;1.8 GHz微波对X射线和阿霉素致淋巴细胞DNA损伤修复及对蛋白表达的影响[D];浙江大学;2010年
3 朱慧芳;Y家族DNA聚合酶对化学致癌物MNNG应答的转录调控研究[D];浙江大学;2009年
4 万超;抗猪瘟嵌合DNA疫苗及TRIF的DNA疫苗佐剂效应研究[D];武汉大学;2009年
5 赵丽霞;克隆绵羊印记相关基因的DNA甲基化研究[D];内蒙古农业大学;2010年
6 沈美龙;基于DNA免疫的乙型肝炎病毒表面抗原大中小蛋白的免疫原性研究[D];南京医科大学;2010年
7 徐铁刚;细菌DNA磷硫酰化修饰与限制[D];上海交通大学;2008年
8 高鹏;特异性介导DNA转导的多结构域嵌合蛋白的构建、表达及鉴定[D];吉林大学;2011年
9 康大伟;DNA分子器件场效应理论研究[D];山东大学;2010年
10 高天;基于寡核苷酸芯片的地中海贫血特异性DNA甲基化的研究[D];第三军医大学;2009年
中国硕士学位论文全文数据库 前10条
1 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
2 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
3 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
4 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
5 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
9 李芳;基于磁性微粒的法医样本DNA纯化[D];西北大学;2011年
10 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026