收藏本站
《西南交通大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于计算智能的聚类组合算法研究

杨燕  
【摘要】: Internet的迅速发展,使得Web成为人们获取信息的重要手段。如何帮助用户从Web这样海量的、动态的、半结构化的分布式环境中发现潜在有用的知识已成为信息技术领域的热点问题。Web数据挖掘就是为解决这一问题而产生的研究领域,研究范围涉及关联分析、分类分析、聚类分析、特征分析、模式序列分析、趋势分析等。其中聚类分析作为数据挖掘的一种强有力的分析工具,得到了人们的广泛关注,近来不断有新的聚类分析算法出现。 计算智能作为智能信息科学发展最有生命活力的一个研究方向,正受到人们的强烈关注。它从模拟自然界生物体系和人类智能现象发展而来,用计算机模拟和再现人类的某些智能行为。计算智能包含人工神经网络、模糊逻辑和进化计算三个主要方面,它已在医疗诊断、图象处理、模式识别、计算生物学、财经分析、Web分析等领域获得成功应用。 为改善聚类分析算法的性能,本文对基于计算智能的聚类组合方法进行了较为系统的研究,提出了基于多蚁群聚类组合以及基于自适应谐振理论(ART)聚类组合两种新算法;并分析了聚类性能评价方法,提出基于有效性指数的蚁群聚类算法,它在评价性能的同时求得最佳聚类数目,并且减少孤立点。实验结果表明,本文提出的一系列有关聚类组合的新思想和新方法都取得了良好的效果,并对文档聚类有一定的指导意义。 归纳起来,本文的研究工作和创新内容主要表现在以下几个方面: (1)改进用于聚类分析的传统蚁群算法。 蚁群聚类算法首先将数据对象随机地投影到一个平面,然后每个蚂蚁随机地选择一个数据对象,根据该对象在局部邻域的相似性而得到的概率,决定蚂蚁是否“拾起”、“移动”或“放下”该对象,最后数据对象按其相似性而聚集。本文将蚂蚁运动速度由单一常数设计成几种不同类型,使之更加符合蚂蚁运动规律;采用Sigmoid函数作为概率转换函数,运算中只需调整一个参数,收敛速度更快;针对孤立点,通过参数的分时调整加快算法收敛。 (2)提出蚁群聚类与蚁群优化结合的新算法。 蚁群优化算法是模拟蚁群觅食的群体行为而提出的。如果把聚类中心看作是蚂蚁所要寻找的食物源,则数据聚类过程就看作是蚂蚁寻求最短路径过程。依据这一思想,本文提出基于蚁群聚类与蚁群优化结合的聚类算法,它先由改进的单蚁群聚类算法进行聚类,生成聚类中心,再由基于蚁群转移概率的K-means算法进行二次优化。两种蚁群算法巧妙结合,可以改善聚类性能。 (3)提出基于聚类有效性指数的蚁群聚类算法,该算法能求得最佳聚类数目,同时减少孤立点。 聚类分析是一种无监督的学习,没有关于分类的先验知识,因此对它们的性能进行评价非常困难。常用的评价方法分为:外部评价法、内部评价法和相对评价法。外部评价法基于预先指定的结构,如F-measure法。内部评价法利用数据的固有性质进行评价。相对评价法用于评价相同算法的参数设置不同时的结果,主要有聚类密集性、聚类邻近性等指标。本文用基于外部评价法的F-measure和相对评价法的有效性指数评价聚类性能,同时利用基于多代表点的评价指数自动求得最佳聚类数目,并减少孤立点,克服大多数聚类算法需要事先输入聚类数目的难题。 (4)提出基于超图的蚁群聚类组合算法和多蚁群并行聚类组合算法。 聚类组合的思想借鉴于分类组合,其目的是从多个聚类结果中找到一个最佳的共识聚类。这是一个具有挑战性的工作,已被证明是一个NP完全型难题。一方面,聚类的模式是未标记的,由不同聚类算法得到的标记之间无明显的联系;另一方面,各种划分可能含有不同的聚类个数,这就涉及到标记对应问题。本文提出两种基于蚁群的聚类组合新算法:一种是考虑运动速度类型各异的多个蚁群,独立进行聚类分析,然后组合其聚类结果为超图,再用蚁群算法对超图进行二次划分。另一种考虑多蚁群和蚁王并行模型。两种算法均能明显改善聚类质量,且能处理文档数据集。 (5)借鉴神经网络组合思想,提出基于自适应谐振理论的聚类组合算法。 自适应谐振理论是一种能自组织地产生对环境识别编码的神经网络理论模型,是无教师的学习网络。本文提出一种基于自适应谐振理论的聚类组合方法,由任意聚类算法如蚁群算法得到的初步聚类结果,作为ART神经网络的输入,用ART模型进行学习,即可得到最终的目标聚类,其聚类性能得到提高。 (6)建立Web文档主题发现与可视化系统 从文档聚类结果中发现主题是一项极具挑战性的工作,本文采用在簇中重新计算词条权值,从而进行主题发现的方法。并以本文提出的各种聚类新算法为基础,开发出集Web文档下载、预处理、聚类分析、主题发现与聚类结果可视化为一体的实际应用系统。
【学位授予单位】:西南交通大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP301.6

【相似文献】
中国期刊全文数据库 前10条
1 牛纪海,徐济仁,卢业华,陈家松;数据挖掘及其在通信侦察信号处理中的应用[J];电子工程师;2001年11期
2 杨军;;基于WEB数据挖掘中的文本聚类权重对偶性研究[J];福建电脑;2010年08期
3 王洪元,史国栋,符彦惟,夏德深;数据挖掘技术在故障诊断中的应用[J];江苏石油化工学院学报;2001年04期
4 莫宏伟,金鸿章,王科俊;基于生物体系的计算智能研究[J];信息技术;2002年02期
5 王江晴;计算智能技术的分析与研究[J];中南民族学院学报(自然科学版);2001年04期
6 张红兵,赵杰煜,罗雪山;计算智能在多源信息融合中的应用研究[J];计算机应用研究;2003年04期
7 郑咸义;帅藕莲;徐秉铮;;计算智能:计算、集成与集成开发环境[J];计算机科学;1996年02期
8 童兆页;论计算智能及其应用[J];计算机研究与发展;1997年S1期
9 赵明旺;求解相容非线性方程组的拟牛顿法和混合计算智能算法[J];计算机应用与软件;2000年08期
10 许世刚,索丽生,陈守伦;计算智能在水利水电工程中的应用研究进展[J];水利水电科技进展;2002年01期
中国重要会议论文全文数据库 前10条
1 李昌彪;宋建平;夏克文;李貅;;基于计算智能的测井数据挖掘[A];中国地球物理学会第二十届年会论文集[C];2004年
2 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
3 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
6 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026