收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于群智能和随机索引的网络聚类算法研究

万淼  
【摘要】:聚类(Clustering)是将数据对象划分为有意义的组(或簇)的过程。作为数据挖掘中的一种重要的技术,聚类分析在很多领域中都扮演着重要的角色。尤其是,随着当今世界各种信息的数据量不断增大、研究问题的复杂度不断增加,现有的聚类分析技术也面临着越来越多的挑战,因此,研究新的聚类算法已经成为数据挖掘、机器学习、统计学和生物学等多个相关研究领域中的前沿和热点问题之一。 群居昆虫的社会性行为,诸如寻找最好的食物源、搭建结构最优的巢穴、孵卵、保护幼虫、守卫种群等都表现出群体层面的宏观智能行为。群体智能(Swarm Intelligence,简称为SI)是为了解决复杂优化问题而创立的一类分布式智能范式体系,其灵感最初就源于对自然界中昆虫群体的观察,通过模拟自然界生物的这种群体行为来实现人工智能。因为聚类策略在多个领域应用的重要性,一些基于群体智能思想的优化算法,如蚂蚁种群优化和粒子群优化等,已经被引入数据挖掘领域,来解决聚类问题。由于聚类用的评价标准函数(Criterion Functions)通常是非凸的或者是非线性的,传统的聚类方法,特别是k均值(k-means)算法,具有对聚类的初始值敏感并且容易使搜索陷入局部最优的缺点。随着实际应用中数据集的维度不断增长,寻找标准函数的最优解是一个"NP-难”的问题。 Web用户在浏览网站时,会根据他们不同的信息需求或潜在的任务和目的,而表现出多种多样的行为,这些行为都被Web访问日志跟踪并且记录下来。Web日志挖掘可以通过发现和分析网络用户访问行为的特征和规律,从而达到识别网站的潜在客户、提高对用户的服务质量的目的。基于聚类算法的Web日志挖掘与用户行为分析方法发展的较晚,并且在Web聚类技术中,目前比较常见的是针对Web会话和Web页面内容的聚类方法研究,针对Web用户浏览模式的聚类方法的研究还相对较少。而且,目前已有的Web用户行为分析和聚类技术只关注用户在页面级别的浏览行为,而对于Web用户活动之间的潜在联系或隐含特征很少关注,并且对与特定浏览模式之间隐藏或无法观察的因素也研究的很少。因此,需要研究和开发新的Web用户聚类技术和用户建模技术,发掘用户行为中潜在的隐藏信息,从而有助于有效地改进用户聚类技术的性能。 Web用户行为聚类的结果可以用于各种途径的高级应用任务,例如Web缓存和预取。目前有很多Web挖掘方法被用于提高从Web访问日志中预测用户访问模式的准确率,以便高效地对Web对象进行预取。目前在预取领域,现有的这些技术大部分都仅仅局限于对单个用户请求的预测,而关于对群体用户的请求预测方面的研究还较少。 本论文的主要创新工作可以归纳如下: (1)针对现有的聚类算法大多存在局限于单一类型的数据集、在搜索时容易陷入局部最优并难以在高维数据集上达到理想效果的问题,本论文在已有的混沌蚂蚁群(Chaotic Ant Swarm,简写为CAS))算法的基础上受蚂蚁混沌搜索和蚁群全局智能优化等行为的启发,根据数据聚类应用的特点,提出了一种新的基于蚂蚁混沌行为的聚类算法(简称为CAS-C算法))。本论文拓展了混沌蚂蚁群算法的应用领域,大量的数值仿真对比实验结果表明了本论文所提的CAS-C算法具有对中心初值不敏感、能够找到全局最优解、具有较高的算法稳定性和准确率的优点。本论文所提的算法更适合于对真实的数据集进行聚类。(2)菌群觅食(Bacterial Foraging,简写为BF)优化算法是一种基于细菌群体行为和进化过程的优化搜索算法,但目前它还不够完善,菌群觅食优化算法的改进及参数调整是目前研究的一个重要问题,尤其是,基于菌群觅食行为的聚类算法方面目前的研究还很少。本论文受菌群觅食行为的启发,提出了一种新的基于菌群觅食优化思想的聚类算法(简称为BF-C算法),通过模仿细菌觅食过程,寻找聚类的最优中心。本论文同时对算法中的各个参数在数据聚类领域的设置进行了详细地讨论与分析。与其他全局优化算法相比,本论文所提出的BF-C算法具有易于理解、计算简单、收敛速度快的优点,但其趋化步长由于缺少对环境的自适应性,需要根据具体应用问题的不同而需要进行具体的讨论。 (3)应用传统的数据挖掘方法进行Web用户行为识别时,具有初值敏感、容易陷入局部最优和在高维数据的挖掘上性能有所下降的缺点。本论文针对Web聚类技术中目前面临的这些问题,将所提出的基于蚂蚁混沌行为的CAS-C聚类算法应用到Web日志分析与用户聚类当中,以发现用户的浏览模式,从而提高Web用户聚类的性能。为了检验所提方案的有效性和可行性,本论文将基于CAS-C的Web用户聚类结果与目前在Web挖掘领域广泛应用的两种算法(k值聚类算法和FCMdd算法)的Web用户聚类结果进行了比较。大量的计算机数值仿真实验表明了使用我们所提出的CAS-C算法能够获得凝聚度和分散度更好的Web用户聚类结果,可以有效地识别用户的公共兴趣。 (4)在对Web用户日志进行分析和挖掘的过程中,需要对Web用户的浏览行为进行形式化的表示,这个过程一般被称为用户建模。目前已有的Web用户行为分析和聚类技术只关注用户在页面级别的浏览行为,而对于Web用户活动之间的潜在联系或隐含特征却很少关注,并且对与特定浏览模式之间隐藏或无法观察的因素也研究甚少。因此,我们提出基于随机索引的用户建模方式,借助自然语言处理领域“上下文”的概念,对URL进行分段索引建模。这样,在用户建模的过程中,能够将浏览模式中的隐藏信息加入其中,进而有效地指导Web用户聚类算法,改进聚类的效果。我们通过聚类实验比较了这两种建模方式:特征向量方法和随机索引方法,大量相关的聚类实验的结果表明了随机索引建模方式的优越性。 (5)本论文所提的聚类算法可以用于各种高级应用任务,例如Web缓存和预取。同时,为了检验我们用户聚类算法的聚类效果,本文基于随机索引建模方法和CAS-C算法,提出了一种新的群体用户的行为预测和网页预取方案,通过建立用户公共档案,总结用户的共同兴趣,并且基于用户聚类结果,建立群体用户的网页预取规则,预取用户未来可能点击的网页,并存入网站的缓存中。为了使实验结果具有说服力,我们仍然选取经典的k均值聚类算法和在Web挖掘领域广泛应用的FCMdd算法作为比较算法。大量的预取实验结果表明了在随机索引用户模型的帮助下,基于CAS-C的Web用户聚类方案能够获得较高的网页预取的准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 唐西西;;一种新的混合遗传聚类算法[J];广西工学院学报;2006年03期
2 夏士雄;李文超;周勇;张磊;牛强;;一种改进的k-means聚类算法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 戴文华;焦翠珍;何婷婷;;基于并行遗传算法的K-means聚类研究[J];计算机科学;2008年06期
4 厍向阳,薛惠锋,高新波;基于障碍物约束的遗传-中心点聚类算法研究[J];系统工程与电子技术;2005年10期
5 傅调平;刘玉树;;一种动态调整的混合蚂蚁聚类算法[J];北京理工大学学报;2006年06期
6 童树鸿,沈毅,刘志言;基于聚类分析的模糊分类系统构造方法[J];控制与决策;2001年S1期
7 厍向阳,彭文祥,薛惠锋;满足二维空间邻接条件的遗传聚类算法研究[J];计算机应用;2005年10期
8 关云鸿;;改进K-均值聚类算法在电信客户分类中的应用[J];计算机仿真;2011年08期
9 周欢;黄立平;;基于SOM神经网络的C-均值聚类算法[J];计算机应用;2007年S1期
10 王威娜;陈巨龙;温宇鹏;;自适应的模糊C均值聚类算法[J];吉林化工学院学报;2008年02期
11 赵大伟;肖周芳;;一种改进的基于密度和样本数量的K-means算法[J];科技信息;2008年28期
12 刘茵;李弼程;郭映月;;一种基于聚类算法的主旨句提取方法[J];情报学报;2008年01期
13 黄美璇;;一种基于Kmax的K-means改进算法[J];佛山科学技术学院学报(自然科学版);2010年02期
14 许剑峰,林嘉宜,黎绍发;一种基于中心对称性的聚类算法[J];计算机工程与设计;2003年05期
15 李晓莉,陈雪;基于模式识别聚类思想的PON ODN规划设计[J];光通信技术;2003年12期
16 张彩虹,王春才,颜雁;医保决策支持系统中的聚类算法[J];长春理工大学学报;2004年04期
17 史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期
18 周如旗;个性化数据聚类的属性坐标分析法[J];电脑与信息技术;2005年03期
19 潘磊,吴小俊,尤媛媛;基于聚类的视频镜头分割和关键帧提取[J];红外与激光工程;2005年03期
20 张永梅,韩焱,张建华;一种有效聚类算法的研究和实现[J];计算机应用;2005年07期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
3 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 施建中;基于模糊聚类的非线性系统辨识研究[D];华北电力大学;2012年
9 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
10 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 王忠强;基于K-medoids聚类算法Web信息集成方法的研究与实现[D];沈阳建筑大学;2011年
2 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
3 毕晋芝;遗传优化的K均值聚类算法[D];太原理工大学;2010年
4 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
5 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
6 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
7 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
8 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
9 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
10 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 Websense中国区总经理 王沛烨;Web安全期待产业变革[N];网络世界;2008年
3 ;Web 2.0数据分析工具正流行[N];网络世界;2008年
4 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
5 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
6 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
7 闫冰;“推”出Web交付新天地[N];网络世界;2009年
8 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
9 张承东;Web智能考核广告[N];网络世界;2009年
10 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978