基因芯片数据的聚类功能评价算法和判别分析算法研究
【摘要】:
以人类基因组计划(human genomes project, HGP)结束为标志,人类进入了后基因组时代。在后基因组时代,人类以研究基因功能为重点。基因芯片以其快速、高通量、准确性高等突出优点成为研究基因功能不可缺少的重要工具。基因芯片数据分析是基因芯片技术研究中的重要内容,属生物信息学研究领域。本文主要对基因芯片数据分析中的聚类功能评价和判别分析进行深入研究。
第一、聚类分析是基因芯片数据分析的重要方法,其目的是根据基因表达模式对基因分类,根据基因分类推测基因功能。然而由于聚类结果受到聚类算法和聚类参数的影响,使用不同的聚类算法和不同的聚类参数常常会产生不同的聚类结果,如何从基因功能相似性的角度评价聚类结果是聚类分析中的难点。本文第四章和第五章以此为切入点对聚类的功能评价算法进行研究。研究出了一种新的基因注释语义相似度计算方法,这种方法根据基因在基因本体(gene ontology, GO)上的注释计算基因的功能相似程度,并以酵母菌的异亮氨酸代谢通路和谷氨酸生物合成代谢通路为实验,证明了这种算法的准确性。在基因注释语义相似度计算方法的基础上,研究出了基因芯片数据聚类的功能评价算法,这种算法以类间基因功能的差异程度和类内的功能相似程度来评价聚类质量,并以酵母菌表达数据为例,表明用这种方法可以准确评价聚类结果的质量,在这种聚类功能评价算法的指导下可获得高质量的聚类结果。
第二、判别分析也是基因芯片数据分析的重要内容,是基因芯片应用于临床诊断必须解决的重要问题之一。我国是肝癌多发国家。microRNA芯片数据和基因芯片数据均可以对肝癌转移作出预测。microRNA通过调控相应靶基因的表达来发挥其生物功能。用来预测的microRNA和用来预测的基因,即特征microRNA和特征基因之间是否存在调控与被调控的关系?第六章以此为切入点对肝癌转移相关的特征microRNA和特征基因的提取,及两者间的关系进行了研究。研究出了一种t交叉权重的方法,这种方法以重复随机抽样进行t检验来计算基因的权重,t交叉权重的优点在于可以根据基因权重大小在判别分析中逐渐扩大特征基因集,与不同的支持向量机核函数结合,在交叉验证变化趋势的指导下,选择合适的特征microRNA集和特征基因集。结果在microRNA芯片数据集和基因芯片数据集中,分别选取了100个特征microRNA和710个特征基因。根据这100个microRNA的表达数据,用多项式核函数的支持向量机预测肝癌转移准确率在83.99%以上;根据这710个特征基因的表达数据,用线性核函数的支持向量机预测准确率在96.76%以上,表明预测准确度良好。对这些特征microRNA和特征基因作进一步分析,发现两者间存在调控与被调控的关系,这提示肝癌的转移可能与这些特征microRNA调控相应的特征基因有关。分析中还发现,特征基因集的功能主要富集于细胞周期代谢通路(P=0.0006),说明细胞周期代谢通路改变可能与肝癌转移有密切关系。
本文的创新点主要体现在以下几个方面:
(1)研究出了一种新的计算基因注释语义相似度算法。利用这种算法可以将基因功能相似性用数据形式度量出来,突破了以往只有模糊比较基因相似性的缺陷;利用这种算法可大批量比较基因的相似度,与手工相比具有高效准确等优点。
(2)研究出了一种新的基因表达数据聚类结果评价算法。该算法实现了从基因功能相似性的角度评价聚类结果,解决了以往只能从数据的数学特征评价聚类结果的不足,从而可获得更高质量的聚类结果。
(3)提出了一种新的特征基因提取方法。这种方法将多次t检验的结果转化为基因的权重值,根据权重值大小结合不同核函数的支持向量机来选择特征基因集和核函数,克服了随机试验选择特征基因集和核函数的缺点。
(4)发现了肝癌转移相关的特征microRNA与特征基因之间存在调控与被调控的关系。
对基因芯片数据的聚类功能评价算法研究和肝癌转移特征基因提取研究具有重要的学术价值和应用价值。首先利用聚类功能评价算法可获得更高质量的聚类结果,对基因功能作出更准确分类;其次提取的特征microRNA和特征基因可以提高预测肝癌转移的准确度;所构建的microRNAs-Genes调控网络为肝癌转移机理研究提供了新思路;同时基因注释语义相似度算法和t交叉权重法分别可用于其它类似的基因注释相似度比较和判别分析的研究中。
|
|
|
|
1 |
安利峰,胜利;基因芯片及其应用进展[J];西北民族学院学报(自然科学版);2002年02期 |
2 |
严广斌;;基因芯片[J];中华关节外科杂志(电子版);2010年04期 |
3 |
许国平;基因芯片──生物技术的一项重大突破[J];世界科学;1997年09期 |
4 |
米兰;基因芯片──一门即将诞生的新兴工业[J];中国经贸导刊;1998年19期 |
5 |
杨彬;基因芯片:钱景诱人的微型实验室[J];中国科技信息;1999年Z4期 |
6 |
李梅浠;;基因芯片撬动的产业[J];新知客;2008年04期 |
7 |
吕秀齐;基因芯片——新世纪医学领域的“宠儿”[J];百科知识;1999年09期 |
8 |
李瑶,陈菊祥,裘敏燕,应康,陈沁,符薇,王品,沈娴,谢毅,毛裕民;基因芯片的制备研究[J];第二军医大学学报;2000年09期 |
9 |
邹宗亮,王升启,王志清;基因芯片制备方法研究进展[J];生物技术通报;2000年01期 |
10 |
徐伟文,李文全,毛裕民;表达谱基因芯片[J];生物化学与生物物理进展;2001年06期 |
11 |
田纯见;基因芯片在生物制药和预防兽医学上的应用前景[J];广东畜牧兽医科技;2001年01期 |
12 |
陆祖宏,何农跃,赵雨杰,孙啸;基因芯片的研究和应用[J];首都医药;2001年06期 |
13 |
林旻;;“基因芯片”的化学本质[J];化工之友;2001年05期 |
14 |
李基文;21世纪基因芯片在医学应用中的展望[J];中国公共卫生;2002年07期 |
15 |
章军建,刘煜敏;基因芯片在医学研究中的应用[J];国外医学.遗传学分册;2002年01期 |
16 |
;基因芯片的研究与开发[J];河南科学;2002年03期 |
17 |
张鸿鸣;基因芯片及其应用[J];金华职业技术学院学报;2002年01期 |
18 |
单虎;基因芯片的研究进展[J];莱阳农学院学报;2002年04期 |
19 |
裴军;用基因芯片寻找差异表达基因[J];上海针灸杂志;2002年01期 |
20 |
林一民
,张玲;基因芯片及应用前景[J];现代医药卫生;2002年07期 |
|
|
|
|
|
1 |
申琦;石伟民;梅桢;;基因芯片数据解析算法研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年 |
2 |
周鲁卫;;基因芯片研究开发的基础[A];2000上海科技论坛BIO-X研讨会暨中德医学生物物理和上海流变学研讨会论文集[C];2000年 |
3 |
敖琳;高利宏;胡冉;刘晋祎;周艳虹;杨录军;杨梦苏;曾志雄;方志俊;曹佳;;毒理基因芯片的研制及初步应用[A];中国毒理学会第二届全国中青年学者科技论坛会议论文集[C];2007年 |
4 |
刘丽玲;王秀荣;陈化兰;;基因芯片的研究进展[A];中国畜牧兽医学会家畜传染病学分会成立20周年庆典暨第十次学术研讨会论文集(上)[C];2003年 |
5 |
郝麟;朱平;于晓梅;张大成;欧阳建华;赵新生;;PCR基因芯片上荧光PCR反应的研究[A];第九届全国实验血液学会议论文摘要汇编[C];2003年 |
6 |
尚世强;;基因芯片[A];2008年浙江省检验医学学术年会论文汇编[C];2008年 |
7 |
刘全海;;基因芯片和新药研制[A];中国药理学会第九届制药工业药理学术会议论文摘要汇编[C];2000年 |
8 |
白志军;舒文杰;谢红卫;伯晓晨;林汝仙;王升启;;微生物检测基因芯片探针的遗传优化设计[A];第十次中国生物物理学术大会论文摘要集[C];2006年 |
9 |
王虹峥;英子;;基因芯片技术与中药现代化[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年 |
10 |
顾剑;彭少华;;临床微生物基因芯片诊断技术[A];湖北省暨武汉市微生物学会分析微生物专业委员会第十届第五次学术会议论文汇编[C];2008年 |
|