收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

复杂生物网络聚类分析方法

梅娟  
【摘要】: 基因组学和高通量技术提供了大量生命系统组成元件(如蛋白质)以及它们之间相互关系的数据,由这些关系数据构成的复杂生物网络蕴含着丰富的生命系统运行机制的知识,挖掘这些隐蔽的知识成为后基因组时代的主要任务之一。作为知识发现重要手段的图聚类方法,在复杂生物网络分析上受到了普遍关注。 本文开发了高性能的图聚类算法CD(contraction-dilation),以复杂生物网络为研究对象,研究了基于蛋白质相似性网络的远同源性探测,分析了从蛋白质相互作用网络中探测到的功能模块。为了对图聚类算法进行评价,提出了一种融入研究对象重要特征的接近现实的网络模型。主要研究内容包括: (1)针对模块性(modularity)这个描述复杂网络集团结构强弱的全局指标,提出了一种简单而高效的基于模块性优化的图聚类算法CD。将此算法应用于计算机的生成基准测试网络,生物网络和社会网络,并将性能表现与已有的同是基于模块性优化的聚类算法进行了比较分析,实验结果表明CD算法能在较短的CPU时间内找到较大数值的模块性,探测到稳定且较精确的集团结构,且对内存需求非常低,可用于分析大型网络。该方法是本文后面分析的基础。 (2)远同源蛋白间的序列相似性很低,处于随机涨落区域边缘(twilight zone),很难区分通过比对获得的序列特征是进化过程中功能约束还是随机突变导致的结果。为了从具有高度噪音的比对分数中提取关于同源性的微弱信号,本文将图聚类算法CD应用于蛋白质相似性网络来探测远同源性。将序列间的Smith-Waterman分数通过S型曲线变换作为蛋白质关联图的连接权重,然后使用CD算法对此关联图进行聚类分析。将该方法应用于蛋白质结构分类数据库SCOP超家族层次的几个数据集,且与谱聚类方法和MCL方法进行比较,实验结果表明,该方法能较好地探测到蛋白质远同源性,因为输出的集团在很大程度上对应着蛋白质超家族;该方法输出的集团数目接近数据集中超家族的个数;该方法得到的结果明显优于其他方法。研究结果表明,序列相似性确实携带了关于远同源性的显著信息,使用CD算法挖掘这些信息能够较准确地探测到蛋白质远同源性。 (3)蛋白质相互作用网络是典型的复杂生物网络,它的节点多且连接分布不均匀,不易被划分为有统计意义的集团。为此,我们从文献提供的数据集中挑选具有中度和高度置信度的酵母蛋白质相互作用数据来构建酵母蛋白质相互作用网络,采用CD算法来将此网络划分为集团。对于得到的集团,我们从拓扑结构的角度以及生物学意义的角度进行了分析。实验结果表明,通过CD算法得到的集团是内部连接紧密的子图,且MIPS数据库的ComplexCat中已知的蛋白质复合体很大程度上包含于这些集团中,且有许多蛋白质复合体完全包含于这些集团中。此外,我们使用超几何聚集分布的P值来分析一个集团对某个特定功能的富集程度,将最小的P值对应的功能作为该集团的主要功能。分析集团中成员的功能发现,集团中大部分的蛋白质具有相同的功能,且与集团的主要功能相一致。 (4)在通常情况下,我们缺乏对现实网络背景知识的了解。为了评价图聚类算法在现实网络上的性能表现,本文构建了一种接近现实的网络模型(near-realistic model,简称NR模型),通过算法在模型网络上的性能表现来推断其分析现实网络的能力。为了确保此推断的合理性,构建的模型网络具有与所研究网络完全相同的一阶统计特征,即模型网络中每个节点的度与所研究网络中相应节点的度完全一致。同时,构建的模型网络可具有任意设定的集团结构,这就相当于给定了背景知识,即真实的分类信息是已知的。构建的NR模型为客观评价图聚类算法提供了一条途径。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐鸽;陈江瑞;;聚类分析在客户关系管理中的应用研究[J];企业技术开发;2008年01期
2 成娅辉;张英杰;;聚类算法在电信客户细分中应用效果的对比研究[J];邵阳学院学报(自然科学版);2009年04期
3 朱屹;刘安丰;;空间数据挖掘中的聚类算法[J];黑龙江科技信息;2011年13期
4 李艳灵;魏涛;;基于轮廓波变换的模糊聚类图像分割[J];信阳师范学院学报(自然科学版);2011年03期
5 严丽平;;基于数据挖掘的电信客户细分模型的分析与设计[J];科技广场;2007年05期
6 蔡俊伟;胡寿松;陶洪峰;;基于选择性支持向量机集成的混沌时间序列预测[J];物理学报;2007年12期
7 赵伟丽;张志国;;蚁群聚类算法的改进和实现[J];科技信息(学术研究);2008年02期
8 刘合兵;尚俊平;;基于距离和密度的聚类和孤立点检测算法[J];河南师范大学学报(自然科学版);2008年03期
9 王洁松;张小飞;;KDDCup99网络入侵检测数据的分析和预处理[J];科技信息(科学教研);2008年15期
10 吴强;;一般信息系统的PoClustering与概念格[J];绍兴文理学院学报(自然科学版);2008年03期
11 陈磊;余建坤;邢晓宇;;谱系聚类在综合国力分析中的应用[J];云南民族大学学报(自然科学版);2009年01期
12 林国平;陈磊松;;一种网格和分形维数的数据流聚类算法[J];郑州大学学报(理学版);2009年02期
13 韩晓峰;;基于自回归的高斯混合模型[J];科技风;2009年23期
14 王路漫;;FCM聚类算法在数字图书馆中的应用研究[J];内蒙古大学学报(自然科学版);2010年04期
15 彭兴媛;刘琼荪;王立威;;基于条件互信息下聚类的朴素贝叶斯分类算法[J];云南大学学报(自然科学版);2011年05期
16 陈双平,郑浩然,黄国锐,王煦法;可视化分析四肽构象空间中的模式[J];中国科学技术大学学报;2005年05期
17 周晓云;孙志挥;张柏礼;;一种大规模高维数据集的高效聚类算法[J];应用科学学报;2006年04期
18 赖立;许家珆;;利用聚类算法建立免疫模型自我库[J];实验科学与技术;2006年04期
19 潘庆丰;陈水利;陈国龙;;基于核函数的模糊C均值聚类算法[J];集美大学学报(自然科学版);2006年04期
20 焦誉;赖建章;柯佳;;一种基于密度的网格动态聚类算法的研究[J];安徽大学学报(自然科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
2 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
3 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
4 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
9 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
10 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
2 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
3 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
4 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
5 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
9 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
10 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
中国重要报纸全文数据库 前3条
1 ;视频数据中挖“宝”[N];计算机世界;2002年
2 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
3 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978