收藏本站
《云南财经大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于模型的聚类在蛋白质分类研究中的应用

曹延姗  
【摘要】:聚类分析作为数据挖掘的重要组成部分,在各个研究领域都发挥着极大的作用,近年来更受到了高度的重视。了解并掌握其原理,将其妥善运用在各种数据分析中是十分必要的。作为聚类的重要方法,基于模型的聚类已经被广泛用于聚类应用中,包括手写识别、文本聚类、图像分割等多个领域。生物信息学近年来得到了极大的发展,作为其中重要的组成部分,蛋白质序列数据的研究也成为了人们关注的重点。鉴于此,本文将基于模型的聚类方法应用在蛋白质序列的分类研究上,以弥补前人常用聚类方法的不足,注入新的思想。本文首先回顾了基于模型的聚类方法的发展历程和国内外学者的研究成果。随后重点阐述了聚类分析的理论知识:简要介绍了聚类分析的含义,详细总结了目前聚类常用的经典算法、高级算法和多源数据算法的内涵,着重阐释了基于模型的聚类方法所涉及的混合模型、参数估计的期望最大化算法和模型选择准则方面的理论知识,并简单分析了基于模型的聚类方法存在的优势和局限性,最后总结了当前聚类分析的实际应用情况。接下来,利用多种具体方法,建立不同的模型,进行参数估计,从而对蛋白质序列进行分类研究。将聚类分析的理论运用在了一个预测蛋白质定位位点的具体实例中:该数据集包含1484个酵母氨基酸序列,共有8个属性变量,10个具体的定位位点。采用k-均值法和基于模型的聚类方法对问题进行处理和分析,其中k-均值法以聚为5类和聚为8类加以说明,基于模型的聚类方法则分别运用基于高斯混合模型法(mclust)、子空间聚类法(hddc)和混合法(Rmixmod)进行运算并得到结果。最后,将理论结果与实际含义相结合,对不同方法的运算结果进行详细的探讨并加以评判。首先,可以清楚地看到,基于模型的聚类方法对蛋白质序列做分类可以得到比较好的效果:分类清晰,各类之间差异显著,类的含义更具有代表性;在聚类的簇的个数选择方面有明确的理论支持;以概率形式对每一类进行表示,每一类的特征也可以用相应的参数来表达,将类别问题转化为最优化模型的问题,在对每一类的性质进行更专业的研究时,可以更好地应用统计的思想和方法,提供一种新的思路。其次,基于模型的聚类方法与k-均值法相比,也有明确的优势:它很好地弥补了k-均值法在聚类个数选择上的欠缺,分类结果的代表性也更为明确和合理。再次,为了从基于模型的聚类方法中选出最为合适的聚类算法,采用了三种不同的具体方法,通过比较这三种方法的结果,针对这一具体问题,基于高斯混合模型法和混合法所得结果比子空间聚类法更为合理,且基于高斯混合模型法操作起来更为简便,对于初学者来说也更容易理解。可以说,基于模型的聚类方法,为相关问题的研究提供了一个新的思路和发展方向,相信在生物信息学领域会有很好的应用前景。
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;TP311.13

免费申请
【相似文献】
中国期刊全文数据库 前10条
1 魏铁华;相似事物的聚类方法[J];成组生产系统;1988年01期
2 盛利元;三次重组聚类方法[J];数学的实践与认识;1988年03期
3 李成智,陈继东,丁瑞云;应用逐步聚类法进行六安地区马尾松苗木分级[J];浙江林业科技;1988年02期
4 蒋佐升;作物育种中三种聚类方法的比较分析[J];湖南农学院学报;1988年01期
5 张力;胡先菊;;模糊目标函数聚类法在种源研究中的应用[J];贵州农学院学报;1988年01期
6 俞世蓉;郭蔼平;;基因型聚类的终止判据[J];生物数学学报;1988年01期
7 张鹄藻;机械零件的包容聚类法[J];成组生产系统;1989年02期
8 华尧楠,华崇钊;Fuzzy综合评估聚类法分区预报二代棉铃虫发生量[J];山东农业科学;1989年04期
9 杨继龙;陈曦;杨伟康;张琼文;;基于谱系聚类法的用户击键特征识别[J];电脑编程技巧与维护;2010年04期
10 郑鹏;李金铭;赖晓燕;赵艳萍;王霞;;主成分分析法与逐步聚类法在树种分类中的应用[J];福建电脑;2006年02期
中国重要会议论文全文数据库 前8条
1 钱吴永;党耀国;;基于灰色关联定权的加权聚类法及其应用[A];第19届灰色系统全国会议论文集[C];2010年
2 郭莉;刘鹏熙;林毅;司徒红林;陈前军;;聚类与改良德尔菲法对乳腺癌巩固期证型研究的比较[A];第十一届全国中医及中西医结合乳腺病学术会议论文集[C];2009年
3 许文来;张建强;赵红颖;许宗林;;基于指数法和聚类法的土壤重金属污染评价[A];2008中国环境科学学会学术年会优秀论文集(中卷)[C];2008年
4 邹志;唐建博;;基于USAN原则的昼夜星体检测技术[A];2006年全国光电技术学术交流会会议文集(A 光电系统总体技术专题)[C];2006年
5 孙韫玉;彭祖赠;;一类Fuzzy推理方法及其在预报问题中的应用[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
6 冯明权;樊长华;刘丽;龙三;;用聚类法分析岩溶系统的初步探讨[A];西部水利水电开发与岩溶水文地质论文选集[C];2004年
7 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
8 刘广余;;运用逐步聚类法进行农地适宜性评价[A];中国土地学会1987年学术讨论会论文选集[C];1987年
中国重要报纸全文数据库 前2条
1 河南省公安厅经侦总队 范慧鹏;“指标聚类法”斩获最佳模型应用奖[N];人民公安报;2018年
2 大摩多因子基金经理 张靖;聚类法扩大超额收益空间[N];中国证券报;2012年
中国博士学位论文全文数据库 前3条
1 周瑞红;基于群智能优化理论的聚类改进方法及应用研究[D];吉林大学;2017年
2 杭文龙;有监督智能聚类与分类技术及其应用研究[D];江南大学;2017年
3 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵杨;基于KQPSO聚类的股票投资价值分析[D];中国石油大学(北京);2018年
2 张盛;基于评价对象抽取的影视剧评论聚类研究[D];上海交通大学;2016年
3 朱乐为;模糊C-means聚类算法的拓展研究[D];云南师范大学;2019年
4 王星;基于矩阵分解的多聚类算法研究[D];西南大学;2019年
5 陆叶;我国区域经济发展水平的动态分析[D];杭州电子科技大学;2018年
6 曹延姗;基于模型的聚类在蛋白质分类研究中的应用[D];云南财经大学;2019年
7 郭旭东;基于深度学习和半监督聚类的入侵检测技术研究[D];宁夏大学;2019年
8 夏典;经典葡萄酒数据集的聚类、降维及可视化实证研究[D];云南师范大学;2019年
9 沈涵生;基于WIFI信号特征的聚类过滤定位算法研究[D];浙江科技学院;2019年
10 卞汛;基于Spark的分布式聚类算法研究及其在社交媒体分析中的应用[D];北京邮电大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026