收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析及其应用研究

唐东明  
【摘要】: 模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学,社会科学和心理科学等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相异。 本文主要针对聚类分析算法及其应用进行研究,本文研究的聚类分析算法主要应用于生物信息学数据分析,大规模选址问题,数据不规则形状分布聚类分析问题。主要的工作和取得的成果概括如下: (1)基因表达序列分析技术(Serial Analysis of gene expression,SAGE)是一种快速详细的分析数以千计转录(transcripts)的最佳方法,这项技术最开始由Victor Velculescu博士于1995年提出。聚类分析算法是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据集中潜在的新的或隐含的转录或者是基因组,因此已经被用于分析SAGE数据。尽管研究人员已经给出了多种用于SAGE数据分析的聚类分析算法,但是这些算法通常都需要结合一些用户自己设定的参数,并且聚类分析的结果对参数选择有很强的依赖性。本文基于SAGE数据的Poisson统计特性和最近提出的仿射消息传播聚类分析算法提出一种自适应的聚类分析算法,在该算法中引入了一个聚类结果校验测度,并以该测度为代价函数对聚类结果进行优化调整以获得优化的聚类结果,该算法被命名为PoissonAPS。在多个实际生命数据集上的对比实验结果表明本文给出的方法能够对SAGE数据进行很好的聚类分析,并且产生有意义的可解释的分类结果。 (2)随着高通量测序技术的发展,目前在生物信息数据库中已经累积了大量的蛋白质序列数据。但是由于实验确定蛋白质序列功能的速度无法赶上新序列测序的速度,因此造成大量的新测序的蛋白质序列尚未通过实验的方式来确定它们的生物功能和家族信息。由于实验验证过程非常耗时并且昂贵,因此理想情况下希望仅仅依赖序列之间的相似性来探测未知功能序列和已知功能序列之间的同源关系,进而确定未知功能序列的信息。聚类分析方法能够通过将蛋白质序列分类到不同的蛋白质家族获得有意义的信息。最近几年研究人员已经提出了多种用于蛋白质序列分析的聚类算法。面对众多的蛋白质序列聚类分析算法,有必要进行一个对比研究分析,分析的结果将有利于生命科学研究人员考察不同的算法并且选择合适的用于特定实验分析场合的算法。本文比较了四种典型的蛋白质序列分析算法,在多个数据集上考察算法的以下几方面的性能:缺省参数条件下的聚类算法性能分析;算法对蛋白质序列在数据集中所处位置是否敏感;数据集自身的真实类分布对聚类算法结果的影响;调节算法的参数,观察参数对聚类结果的影响。本文给出的实验结果能够帮助研究人员选择合适的分析算法。并且实验结果还表明蛋白质序列聚类分析算法还有很大的改进空间。 (3)随着大量的未知功能的蛋白质序列数据的累积,目前已经无法通过实验的手段来标注未知功能的蛋白质序列。聚类分析方法通过将蛋白质序列分类到不同的同源组来确定未知功能的蛋白质序列的信息。本文引入了一种用于大数据量蛋白质序列分析的无比对的在线聚类分析方法,命名为OnlineCAPS。该方法具有速度快,可在有限内存环境下运行等优点,此外该方法还可以被部署在WEB服务器上。实验结果表明该方法能够快速的分析大数据量的蛋白质序列,并且获得的聚类结果的质量接近于其它算法。 (4)选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看作聚类问题,结合聚类分析算法并且将候选地址的信息映射为特征向量,本文提出了两种求解选址布局问题的方法:基于块划分的选址布局方法;基于道路网络的选址布局方法。文中使用模拟数据集和真实数据集来评估这两种方法,实验结果表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可以很好的解决大规模的选址布局问题。 (5)探测数据不规则形状分布的自然类簇分布是模式识别研究领域的一个困难的任务。本文给出了一种有效的数据不规则形状分布聚类分析算法,该算法结合了谱聚类和仿射消息传播聚类算法的优点,能够很好的分析数据不规则形状分布的类簇结构。与此同时,文中给出了一种新的基于邻居离散分析的相似度测度。本文给出的方法简单有效,在多个模拟数据和实际数据上检验了方法的性能。实验结果表明本文给出的方法能够探测数据中的自然类簇分布,并且聚类分析的结果和人的自然判断相一致。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 杨森;;聚类分析及其应用研究[J];计算机安全;2014年01期
2 刘俊;刘希玉;;关于数据挖掘中聚类分析的研究进展[J];网络安全技术与应用;2010年08期
3 何湘藩;庄真;;模糊分级聚类分析方法[J];数量经济技术经济研究;1991年12期
4 孙德敏;陈彪;薛美盛;;聚类分析在丙烯腈反应器操作优化中的应用[J];模式识别与人工智能;2002年01期
5 赵俊杰;黄四牛;吴正午;王帅;;基于聚类分析的不均衡数据标注技术研究[J];计算机仿真;2020年02期
6 艾倩楠;;基于聚类分析的高速铁路突发事故等级划分[J];内江科技;2019年12期
7 韦晓静;;基于聚类分析的学生成绩评定方法研究[J];智库时代;2020年11期
8 贺昌政;张九龙;林嫔;;基于数据分组处理方法的聚类分析模型[J];系统工程学报;2008年02期
9 孙冰心;王利民;崔丽霜;庞永俊;;基于谱系聚类分析的集装箱装箱方案优化研究[J];铁道运输与经济;2006年08期
10 李永健,方肇勤,邸若虹;聚类分析在中医药研究中的应用与思考[J];中国中医药信息杂志;2001年06期
11 丁卫东;;基于聚类分析的异常数据检测[J];电子技术与软件工程;2020年15期
12 潘学雷;简易聚类分析[J];中国卫生统计;1994年01期
13 许淑惠;;灾害护理研究热点的共词聚类分析[J];基层医学论坛;2021年06期
14 李白;;聚类分析法在市场营销中的应用探讨[J];现代营销(经营版);2021年03期
15 冯会玲;沈永青;栗娟;王慧;马京华;陈金金;;基于双聚类分析方法的国际安宁疗护相关文献研究热点分析[J];上海医药;2021年22期
16 黄楚君;丁美祝;张广清;梁桂兴;胡佩欣;胡思琴;;基于PubMed数据库患者自我管理研究热点的共词聚类分析[J];中国医药导报;2020年01期
17 赵志宇;肖颖婷;任莹;;基于聚类算法的大用户用电模式识别研究[J];中国管理信息化;2017年19期
18 喻平;;数学学科核心素养要素析取的实证研究[J];数学教育学报;2016年06期
中国重要会议论文全文数据库 前20条
1 肖静;杨泽峰;徐辰武;;微阵列表达谱监督聚类分析方法的比较研究[A];江苏省遗传学会第七届代表大会暨学术研讨会论文摘要汇编[C];2006年
2 詹松辉;王华;;基于聚类分析的块体运动模型[A];2020年中国地球科学联合学术年会论文集(六)—专题十六:南北地震带和我国东北地区深浅部构造特征与动力学机制、专题十七:震源物理过程与地震危险性综合研究、专题十八:活动地块边界带强震机理与预测[C];2020年
3 李明雪;钟方薇;彭招铜;;基于聚类分析的喀斯特地区农村宅基地整治策略研究——以贵州省贵阳市息烽县为例[A];面向高质量发展的空间治理——2021中国城市规划年会论文集(11城乡治理与政策研究)[C];2021年
4 何国民;;复相关聚类分析法[A];第六届全国体育科学大会论文摘要汇编(二)[C];2000年
5 赵小刚;张蒙蒙;黄河;戴思兰;;基于聚类分析的小菊品种间亲缘关系分析[A];中国观赏园艺研究进展2018[C];2018年
6 孙晓东;胡劲松;焦玥;;基于主成分分析和灰色关联聚类分析的指标综合方法研究[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
7 张红卫;隗金水;;聚类分析评价与测量效度关系探讨[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
8 罗义旺;刘燕秋;;基于聚类分析的用电模式判别研究[A];第二届智能电网会议论文集[C];2018年
9 刘旭;喻嵘;;明清医家治疗消渴病主要中药聚类分析[A];第十二次全国中西医结合内分泌代谢病学术大会暨糖尿病、甲状腺疾病高峰论坛论文资料汇编[C];2019年
10 张俊;王万彤;谷玉龙;张琦岩;唐家骏;;聚类分析在石化生产中的应用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
11 刘罗;王鹏;林锴;窦菲菲;高峰强;;企业科技人员创新行为的聚类分析[A];第十七届全国心理学学术会议论文摘要集[C];2014年
12 刘文令;庞维国;;幽默风格与创造性观念生成、社会创造性的关系——聚类分析的视角[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
13 陈红;;灰关联聚类分析及其应用研究[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
14 王志芳;严新平;赵春华;刘杰;;油液光谱元素间梯度聚类分析[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
15 匡宸毅;;聚类分析及其spss实现[A];探索科学2016年6月学术研讨[C];2016年
16 陈林;黄蓉;田英;;78种环境内分泌干扰物之间的相关性[A];2017环境与公共健康学术会议暨中国环境科学学会环境医学与健康分会、中国毒理学会生化与分子毒理专业委员会2017年年会论文集[C];2017年
17 李沃;;基于BDMS系统使用聚类分析方法进行轨道设备故障预测[A];《高速铁路与轨道交通》核新版2016年10月[C];2016年
18 何湘藩;庄真;;模糊分级聚类分析方法及其应用[A];企业发展与系统工程——中国系统工程学会第七届年会论文集[C];1992年
19 王磊磊;;水源水中颗粒物元素聚类分析及特征研究[A];2018第十三届中国城镇水务发展国际研讨会与新技术设备博览会论文集[C];2018年
20 石咏梅;;山西省各地市保险差异的实证研究[A];全国高等财经院校《资本论》研究会2014年学术研讨会论文汇编(下)[C];2014年
中国博士学位论文全文数据库 前20条
1 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
2 曹建平;面向文本的多属性异质网络聚类技术研究[D];国防科学技术大学;2016年
3 殷路;基因表达数据的双聚类分析与研究[D];电子科技大学;2017年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
6 高滢;多关系聚类分析方法研究[D];吉林大学;2008年
7 晏华;交易数据的聚类分析[D];电子科技大学;2008年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 李锋;信任函数理论框架下新聚类分析方法的研究[D];北京工业大学;2020年
10 赵梦玲;基于智能优化算法的聚类分析及应用[D];西安电子科技大学;2015年
11 单世民;基于网格和密度的数据流聚类方法研究[D];大连理工大学;2006年
12 殷泽坤;大规模超长生物序列聚类分析[D];山东大学;2020年
13 葛红;免疫算法及核聚类人工免疫网络应用研究[D];华南理工大学;2003年
14 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
15 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
16 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
17 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
18 赵玉祯;扩展P系统及其在聚类分析中的研究与应用[D];山东师范大学;2017年
19 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
20 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前20条
1 李黎;基于聚类分析的负荷数据分类方法的研究[D];华北电力大学(北京);2004年
2 肖彬;聚类分析在六西格玛项目分析中的应用研究[D];北方工业大学;2013年
3 于翔;聚类分析中k-均值方法的研究[D];哈尔滨工程大学;2007年
4 张晨;中国新疆跨境电商发展环境评价研究[D];新疆财经大学;2019年
5 赵袁;基于关键词共现聚类分析的科技能源数据管理系统设计与实现[D];中南财经政法大学;2019年
6 陈思霖;基于面积的Vague熵及在聚类分析中的应用[D];西安科技大学;2019年
7 郭颖颖;基于逐步聚类分析的中国广东省近地表温度高分辨率预测[D];华北电力大学(北京);2019年
8 熊治钢;基于Kmeans的综合股指类数据的聚类研究[D];上海交通大学;2016年
9 沈相如;基于单细胞测序对T淋巴细胞亚型的重新认识和重聚类分析[D];哈尔滨工业大学;2019年
10 甘宇;基于深度降噪自编码的波形聚类方法研究[D];成都理工大学;2019年
11 王硕;医疗数据的聚类分析系统设计与实现[D];西华大学;2018年
12 杨思博;基于LIBS技术的乳腺癌组织元素成像和聚类分析研究[D];哈尔滨工业大学;2019年
13 韩滢羽;基于混合ERGM模型的CTC细胞基因聚类分析[D];青岛大学;2019年
14 张博洋;一种单细胞测序数据流程化分析方法[D];哈尔滨工业大学;2019年
15 梅冬阳;基于轨迹数据聚类和行为分析的研究与实现[D];沈阳理工大学;2019年
16 张帅弛;基于聚类分析的雷电定位算法研究[D];南京信息工程大学;2019年
17 毕玉珊;基于聚类分析与决策树算法的社交网络客户细分研究[D];北京工业大学;2019年
18 冯佳捷;基于聚类分析的A股市场异象因子研究[D];武汉大学;2019年
19 高利峰;基于Spark的降雨量预测方法研究与实现[D];西安理工大学;2019年
20 朱杰;基于聚类分析的造币电镀系统工况的优化研究[D];上海交通大学;2017年
中国重要报纸全文数据库 前1条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978