收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析及其应用研究

唐东明  
【摘要】: 模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学,社会科学和心理科学等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相异。 本文主要针对聚类分析算法及其应用进行研究,本文研究的聚类分析算法主要应用于生物信息学数据分析,大规模选址问题,数据不规则形状分布聚类分析问题。主要的工作和取得的成果概括如下: (1)基因表达序列分析技术(Serial Analysis of gene expression,SAGE)是一种快速详细的分析数以千计转录(transcripts)的最佳方法,这项技术最开始由Victor Velculescu博士于1995年提出。聚类分析算法是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据集中潜在的新的或隐含的转录或者是基因组,因此已经被用于分析SAGE数据。尽管研究人员已经给出了多种用于SAGE数据分析的聚类分析算法,但是这些算法通常都需要结合一些用户自己设定的参数,并且聚类分析的结果对参数选择有很强的依赖性。本文基于SAGE数据的Poisson统计特性和最近提出的仿射消息传播聚类分析算法提出一种自适应的聚类分析算法,在该算法中引入了一个聚类结果校验测度,并以该测度为代价函数对聚类结果进行优化调整以获得优化的聚类结果,该算法被命名为PoissonAPS。在多个实际生命数据集上的对比实验结果表明本文给出的方法能够对SAGE数据进行很好的聚类分析,并且产生有意义的可解释的分类结果。 (2)随着高通量测序技术的发展,目前在生物信息数据库中已经累积了大量的蛋白质序列数据。但是由于实验确定蛋白质序列功能的速度无法赶上新序列测序的速度,因此造成大量的新测序的蛋白质序列尚未通过实验的方式来确定它们的生物功能和家族信息。由于实验验证过程非常耗时并且昂贵,因此理想情况下希望仅仅依赖序列之间的相似性来探测未知功能序列和已知功能序列之间的同源关系,进而确定未知功能序列的信息。聚类分析方法能够通过将蛋白质序列分类到不同的蛋白质家族获得有意义的信息。最近几年研究人员已经提出了多种用于蛋白质序列分析的聚类算法。面对众多的蛋白质序列聚类分析算法,有必要进行一个对比研究分析,分析的结果将有利于生命科学研究人员考察不同的算法并且选择合适的用于特定实验分析场合的算法。本文比较了四种典型的蛋白质序列分析算法,在多个数据集上考察算法的以下几方面的性能:缺省参数条件下的聚类算法性能分析;算法对蛋白质序列在数据集中所处位置是否敏感;数据集自身的真实类分布对聚类算法结果的影响;调节算法的参数,观察参数对聚类结果的影响。本文给出的实验结果能够帮助研究人员选择合适的分析算法。并且实验结果还表明蛋白质序列聚类分析算法还有很大的改进空间。 (3)随着大量的未知功能的蛋白质序列数据的累积,目前已经无法通过实验的手段来标注未知功能的蛋白质序列。聚类分析方法通过将蛋白质序列分类到不同的同源组来确定未知功能的蛋白质序列的信息。本文引入了一种用于大数据量蛋白质序列分析的无比对的在线聚类分析方法,命名为OnlineCAPS。该方法具有速度快,可在有限内存环境下运行等优点,此外该方法还可以被部署在WEB服务器上。实验结果表明该方法能够快速的分析大数据量的蛋白质序列,并且获得的聚类结果的质量接近于其它算法。 (4)选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看作聚类问题,结合聚类分析算法并且将候选地址的信息映射为特征向量,本文提出了两种求解选址布局问题的方法:基于块划分的选址布局方法;基于道路网络的选址布局方法。文中使用模拟数据集和真实数据集来评估这两种方法,实验结果表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可以很好的解决大规模的选址布局问题。 (5)探测数据不规则形状分布的自然类簇分布是模式识别研究领域的一个困难的任务。本文给出了一种有效的数据不规则形状分布聚类分析算法,该算法结合了谱聚类和仿射消息传播聚类算法的优点,能够很好的分析数据不规则形状分布的类簇结构。与此同时,文中给出了一种新的基于邻居离散分析的相似度测度。本文给出的方法简单有效,在多个模拟数据和实际数据上检验了方法的性能。实验结果表明本文给出的方法能够探测数据中的自然类簇分布,并且聚类分析的结果和人的自然判断相一致。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李冬;谢宗宝;郑秋燕;;基于聚类分析的协作学习分组方法的讨论[J];软件导刊;2005年06期
2 张鸣华;;一种聚类方法的分析[J];三明学院学报;2006年02期
3 周晓刚;洪春勇;;蚁群聚类算法在客户分类中的应用[J];计算机与现代化;2007年05期
4 乔晓明;刘有耀;;基于粗糙集理论和FCM的图像聚类方法[J];微计算机信息;2007年12期
5 漆超;江嘉;;基于数据挖掘技术的网站用户分析[J];昆明理工大学学报(理工版);2007年02期
6 张广盈;张婷婷;;中原城市群群内经济发展实证分析[J];西安邮电学院学报;2007年06期
7 杨久俊;邓辉文;滕姿;;基于混沌免疫进化算法的聚类算法分析[J];计算机科学;2008年08期
8 周大镯;吴晓丽;闫红灿;;一种高效的多变量时间序列相似查询算法[J];计算机应用;2008年10期
9 钟志强;;教育技术学专业主干课程学生成绩因子与聚类分析的研究[J];软件导刊;2009年03期
10 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
11 鲍培明;吉根林;金琳;;一种面向空间对象群的聚类算法[J];广西师范大学学报(自然科学版);2009年03期
12 尹鹏飞;张晓丹;;一种基于简单遗传算法的K-Means改进算法[J];吉首大学学报(自然科学版);2009年06期
13 张建民;;一种改进的K-means聚类算法[J];微计算机信息;2010年09期
14 张东生;季超;;基于向量空间模型的基因序列聚类及仿真实验[J];微计算机信息;2010年16期
15 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
16 李玲玲;方帅;辛浩;;改进的基于层次聚类的模糊聚类算法[J];合肥工业大学学报(自然科学版);2010年06期
17 王芳;王正兰;;数据挖掘方法在电信行业客户流失分析中的应用研究[J];现代商贸工业;2010年24期
18 楼雯;屈卫群;李立从;;基于共词分析法的我国竞争情报研究主题分析[J];情报杂志;2009年S2期
19 左思强;;基于模糊C均值聚类方法的长江流域主要城市水质分析[J];福建电脑;2011年03期
20 柴旭光;;基于层次迭代思想的聚类算法的研究[J];邢台职业技术学院学报;2011年01期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
6 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
9 房海灵;李维林;于盱;梁呈元;;薄荷属植物的数量分类[A];中国植物学会植物结构与生殖生物学专业委员会、江苏省植物学会2007年学术年会学术报告及研究论文集[C];2007年
10 金友玉;;湖北省区域经济差异综合评价及分类分析[A];2007中国科协年会专题论坛暨第四届湖北科技论坛优秀论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
2 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
5 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
6 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
7 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
8 徐海松;蛋白质序列中的折叠和去折叠信息[D];北京工业大学;2011年
9 骆嘉伟;基因数据相似性分析方法研究[D];湖南大学;2008年
10 王栋;蛋白质序列的并行分类方法研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 张堃;基于粒度下的蛋白质序列的分析[D];江南大学;2011年
2 刘小俊;中国南瓜属(Cucurbita spp)部分栽培种遗传多样性研究[D];四川大学;2005年
3 李文慧;江西省人口空间动态特征研究[D];江西师范大学;2006年
4 邹琼;中小学生自我表露特点的发展研究[D];华东师范大学;2007年
5 王文平;聚类分析及其在图像分割中的应用[D];山东师范大学;2007年
6 陈弘;基于因子分析对信用评级方法的研究[D];吉林大学;2007年
7 马晓晴;中国经济增长质量的区域差异研究[D];西北大学;2008年
8 张白妮;基因数据聚类分析研究[D];湖南大学;2005年
9 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
10 曲华;一种双聚类算法的实现与改进[D];吉林大学;2005年
中国重要报纸全文数据库 前10条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
2 肖恩·B·卡罗尔尼古拉斯·格姆培尔 本杰明·普鲁德赫姆 张红超 编译;动物形态迥异之谜[N];第一财经日报;2008年
3 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
4 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
5 中谷期货 杨静;期货公司客户信用风险评级体系研究[N];期货日报;2007年
6 YMG记者 孙长波;烟台经济增速全球第三[N];烟台日报;2008年
7 符信;30个指标评价社会发展水平[N];南方日报;2005年
8 雨文;全国专家聚云财大研讨区域经济学[N];云南日报;2006年
9 中国社会科学院研究生院人文学院 王昌燧 朱剑 朱铁权;原始瓷产地研究之启示[N];中国文物报;2006年
10 王式跃;对宁波区域经济发展差异的分析[N];中国信息报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978