收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于群智能和随机索引的网络聚类算法研究

万淼  
【摘要】:聚类(Clustering)是将数据对象划分为有意义的组(或簇)的过程。作为数据挖掘中的一种重要的技术,聚类分析在很多领域中都扮演着重要的角色。尤其是,随着当今世界各种信息的数据量不断增大、研究问题的复杂度不断增加,现有的聚类分析技术也面临着越来越多的挑战,因此,研究新的聚类算法已经成为数据挖掘、机器学习、统计学和生物学等多个相关研究领域中的前沿和热点问题之一。 群居昆虫的社会性行为,诸如寻找最好的食物源、搭建结构最优的巢穴、孵卵、保护幼虫、守卫种群等都表现出群体层面的宏观智能行为。群体智能(Swarm Intelligence,简称为SI)是为了解决复杂优化问题而创立的一类分布式智能范式体系,其灵感最初就源于对自然界中昆虫群体的观察,通过模拟自然界生物的这种群体行为来实现人工智能。因为聚类策略在多个领域应用的重要性,一些基于群体智能思想的优化算法,如蚂蚁种群优化和粒子群优化等,已经被引入数据挖掘领域,来解决聚类问题。由于聚类用的评价标准函数(Criterion Functions)通常是非凸的或者是非线性的,传统的聚类方法,特别是k均值(k-means)算法,具有对聚类的初始值敏感并且容易使搜索陷入局部最优的缺点。随着实际应用中数据集的维度不断增长,寻找标准函数的最优解是一个"NP-难”的问题。 Web用户在浏览网站时,会根据他们不同的信息需求或潜在的任务和目的,而表现出多种多样的行为,这些行为都被Web访问日志跟踪并且记录下来。Web日志挖掘可以通过发现和分析网络用户访问行为的特征和规律,从而达到识别网站的潜在客户、提高对用户的服务质量的目的。基于聚类算法的Web日志挖掘与用户行为分析方法发展的较晚,并且在Web聚类技术中,目前比较常见的是针对Web会话和Web页面内容的聚类方法研究,针对Web用户浏览模式的聚类方法的研究还相对较少。而且,目前已有的Web用户行为分析和聚类技术只关注用户在页面级别的浏览行为,而对于Web用户活动之间的潜在联系或隐含特征很少关注,并且对与特定浏览模式之间隐藏或无法观察的因素也研究的很少。因此,需要研究和开发新的Web用户聚类技术和用户建模技术,发掘用户行为中潜在的隐藏信息,从而有助于有效地改进用户聚类技术的性能。 Web用户行为聚类的结果可以用于各种途径的高级应用任务,例如Web缓存和预取。目前有很多Web挖掘方法被用于提高从Web访问日志中预测用户访问模式的准确率,以便高效地对Web对象进行预取。目前在预取领域,现有的这些技术大部分都仅仅局限于对单个用户请求的预测,而关于对群体用户的请求预测方面的研究还较少。 本论文的主要创新工作可以归纳如下: (1)针对现有的聚类算法大多存在局限于单一类型的数据集、在搜索时容易陷入局部最优并难以在高维数据集上达到理想效果的问题,本论文在已有的混沌蚂蚁群(Chaotic Ant Swarm,简写为CAS))算法的基础上受蚂蚁混沌搜索和蚁群全局智能优化等行为的启发,根据数据聚类应用的特点,提出了一种新的基于蚂蚁混沌行为的聚类算法(简称为CAS-C算法))。本论文拓展了混沌蚂蚁群算法的应用领域,大量的数值仿真对比实验结果表明了本论文所提的CAS-C算法具有对中心初值不敏感、能够找到全局最优解、具有较高的算法稳定性和准确率的优点。本论文所提的算法更适合于对真实的数据集进行聚类。(2)菌群觅食(Bacterial Foraging,简写为BF)优化算法是一种基于细菌群体行为和进化过程的优化搜索算法,但目前它还不够完善,菌群觅食优化算法的改进及参数调整是目前研究的一个重要问题,尤其是,基于菌群觅食行为的聚类算法方面目前的研究还很少。本论文受菌群觅食行为的启发,提出了一种新的基于菌群觅食优化思想的聚类算法(简称为BF-C算法),通过模仿细菌觅食过程,寻找聚类的最优中心。本论文同时对算法中的各个参数在数据聚类领域的设置进行了详细地讨论与分析。与其他全局优化算法相比,本论文所提出的BF-C算法具有易于理解、计算简单、收敛速度快的优点,但其趋化步长由于缺少对环境的自适应性,需要根据具体应用问题的不同而需要进行具体的讨论。 (3)应用传统的数据挖掘方法进行Web用户行为识别时,具有初值敏感、容易陷入局部最优和在高维数据的挖掘上性能有所下降的缺点。本论文针对Web聚类技术中目前面临的这些问题,将所提出的基于蚂蚁混沌行为的CAS-C聚类算法应用到Web日志分析与用户聚类当中,以发现用户的浏览模式,从而提高Web用户聚类的性能。为了检验所提方案的有效性和可行性,本论文将基于CAS-C的Web用户聚类结果与目前在Web挖掘领域广泛应用的两种算法(k值聚类算法和FCMdd算法)的Web用户聚类结果进行了比较。大量的计算机数值仿真实验表明了使用我们所提出的CAS-C算法能够获得凝聚度和分散度更好的Web用户聚类结果,可以有效地识别用户的公共兴趣。 (4)在对Web用户日志进行分析和挖掘的过程中,需要对Web用户的浏览行为进行形式化的表示,这个过程一般被称为用户建模。目前已有的Web用户行为分析和聚类技术只关注用户在页面级别的浏览行为,而对于Web用户活动之间的潜在联系或隐含特征却很少关注,并且对与特定浏览模式之间隐藏或无法观察的因素也研究甚少。因此,我们提出基于随机索引的用户建模方式,借助自然语言处理领域“上下文”的概念,对URL进行分段索引建模。这样,在用户建模的过程中,能够将浏览模式中的隐藏信息加入其中,进而有效地指导Web用户聚类算法,改进聚类的效果。我们通过聚类实验比较了这两种建模方式:特征向量方法和随机索引方法,大量相关的聚类实验的结果表明了随机索引建模方式的优越性。 (5)本论文所提的聚类算法可以用于各种高级应用任务,例如Web缓存和预取。同时,为了检验我们用户聚类算法的聚类效果,本文基于随机索引建模方法和CAS-C算法,提出了一种新的群体用户的行为预测和网页预取方案,通过建立用户公共档案,总结用户的共同兴趣,并且基于用户聚类结果,建立群体用户的网页预取规则,预取用户未来可能点击的网页,并存入网站的缓存中。为了使实验结果具有说服力,我们仍然选取经典的k均值聚类算法和在Web挖掘领域广泛应用的FCMdd算法作为比较算法。大量的预取实验结果表明了在随机索引用户模型的帮助下,基于CAS-C的Web用户聚类方案能够获得较高的网页预取的准确率。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 王实,高文,李锦涛,谢辉;路径聚类:在Web站点中的知识发现[J];计算机研究与发展;2001年04期
2 董一鸿,庄越挺;基于新型的竞争型神经网络的Web日志挖掘[J];计算机研究与发展;2003年05期
3 吴斌,史忠植;一种基于蚁群算法的TSP问题分段求解算法[J];计算机学报;2001年12期
4 吴健,董金翔;关于个性化网站的研究[J];计算机应用研究;2000年09期
5 阳小华,周龙镶;基于用户访问模式的WWW浏览路径优化[J];软件学报;2001年06期
6 苏中,马少平,杨强,张宏江;基于Web-Log Mining的N元预测模型[J];软件学报;2002年01期
7 许欢庆,王永成;基于用户访问路径分析的网页预取模型[J];软件学报;2003年06期
8 范周田,黄铮,张方;聚类问题的人工神经网络方法[J];数理统计与应用概率;1996年01期
9 陆丽娜,魏恒义,杨怡玲,管旭东;Web日志挖掘中的序列模式识别[J];小型微型计算机系统;2000年05期
10 宋擒豹,沈钧毅;Web页面和客户群体的模糊聚类算法[J];小型微型计算机系统;2001年02期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 张友志;程玉胜;王一宾;;基于Web日志挖掘的Markov预测模型及算法研究[J];安庆师范学院学报(自然科学版);2010年01期
3 廖亚莉,王锡钢,战学刚;基于关联规则的网站个性化服务[J];鞍山科技大学学报;2004年06期
4 张纯;邓彦松;;基于蚁群算法的仿真机器鱼动作决策策略[J];兵工自动化;2011年12期
5 冀俊忠;黄振;刘椿年;;基于聚类和分段优化的蚁群算法[J];北京工业大学学报;2008年04期
6 赵义飞;高锦宏;刘亚平;哈亮;;基于蚁群优化神经网络的故障诊断[J];北京信息科技大学学报(自然科学版);2010年02期
7 许剑;吕志民;徐金梧;;带有侦察子群的蚁群系统[J];北京科技大学学报;2006年08期
8 田文杰;刘继承;艾兰;;基于蚁群神经网络的设备故障诊断[J];北京联合大学学报(自然科学版);2008年04期
9 李彬;毛一之;李新;;改进蚂蚁算法在电力变压器优化设计中的应用[J];变压器;2006年03期
10 雷筱珍;赖万钦;;一种基于URL路径的页面用户聚类方法[J];长春工程学院学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 谢静;苏一丹;;基于人工免疫的增量聚类算法[A];广西计算机学会2009年年会论文集[C];2009年
2 吴正伟;吉文来;陈伟佳;卢扣;;基于蚁群算法的城市紧急救援最佳路径选择[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
3 ;A Quantum-Inspired Ant Colony Optimization for Robot Coalition Formation[A];2009中国控制与决策会议论文集(1)[C];2009年
4 刘心报;叶强;;基于模块设计的蚁群算法研究综述[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
5 孙艳歌;刘明;许芷岩;;Ad Hoc网络中基于双向收敛蚁群算法的QoS路由算法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
6 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
7 葛菊萍;;层次聚类算法和免疫算法对TSP问题的求解[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 李彬;毛一之;庞小东;;蚂蚁算法在电力变压器优化设计中的应用研究[A];电工理论与新技术学术年会论文集[C];2005年
10 许耀华;胡艳军;;一种基于蚁群算法的CDMA多用户检测方法[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 戴运桃;粒子群优化算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2010年
2 张子迎;多机器人协作及环境建模技术研究[D];哈尔滨工程大学;2009年
3 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
4 庄梅玲;三维衣身原型曲面展平技术的研究[D];东华大学;2010年
5 周晖;自由搜索算法及其在传感器网络中的应用[D];东华大学;2010年
6 张凌云;高密度电阻率勘探反演的非线性方法研究[D];太原理工大学;2011年
7 蒋丽;以工位为中心的生产物流配送优化研究[D];中国科学技术大学;2011年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
9 孟志刚;蚁群觅食仿真和动画的研究[D];中南大学;2011年
10 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 李颖;用蚁群算法求解最小极大流问题[D];河南理工大学;2010年
2 柳枝华;微粒群优化算法的改进及应用[D];南昌航空大学;2010年
3 张琰渝;用户兴趣模型建模方法研究[D];辽宁师范大学;2010年
4 邵晓路;蚁群群体智能网络可视化试验平台研制[D];浙江理工大学;2010年
5 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
6 马迪;图像分割中的边缘检测方法研究[D];哈尔滨工程大学;2010年
7 石丽丽;智能优化算法对比研究及其在船体双底结构优化中的应用[D];哈尔滨工程大学;2010年
8 王盼盼;基于负载均衡的无线传感器网络路由协议研究[D];大连理工大学;2010年
9 张峰;基于支持向量机的网站发布系统设计与实现[D];大连理工大学;2010年
10 周东明;基于ACO的WSN路由算法研究[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 张素兵,吕国英,刘泽民,周正;基于蚂蚁算法的QoS路由调度方法[J];电路与系统学报;2000年01期
2 吴庆洪,张纪会,徐心和;具有变异特征的蚁群算法[J];计算机研究与发展;1999年10期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 徐宝文,张卫丰;数据挖掘技术在Web预取中的应用研究[J];计算机学报;2001年04期
5 王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期
6 阳小华,周龙骧;WEB用户的视图[J];软件学报;1999年07期
7 朱培栋,nudt.edu.cn,卢锡城,nudt.edu.cn,周兴铭,nudt.edu.cn;基于客户行为模式的Web文档预送[J];软件学报;1999年11期
8 张朝晖,陆玉昌,张钹;发掘多值属性的关联规则[J];软件学报;1998年11期
【相似文献】
中国期刊全文数据库 前10条
1 唐西西;;一种新的混合遗传聚类算法[J];广西工学院学报;2006年03期
2 夏士雄;李文超;周勇;张磊;牛强;;一种改进的k-means聚类算法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 戴文华;焦翠珍;何婷婷;;基于并行遗传算法的K-means聚类研究[J];计算机科学;2008年06期
4 厍向阳,薛惠锋,高新波;基于障碍物约束的遗传-中心点聚类算法研究[J];系统工程与电子技术;2005年10期
5 傅调平;刘玉树;;一种动态调整的混合蚂蚁聚类算法[J];北京理工大学学报;2006年06期
6 童树鸿,沈毅,刘志言;基于聚类分析的模糊分类系统构造方法[J];控制与决策;2001年S1期
7 厍向阳,彭文祥,薛惠锋;满足二维空间邻接条件的遗传聚类算法研究[J];计算机应用;2005年10期
8 关云鸿;;改进K-均值聚类算法在电信客户分类中的应用[J];计算机仿真;2011年08期
9 周欢;黄立平;;基于SOM神经网络的C-均值聚类算法[J];计算机应用;2007年S1期
10 王威娜;陈巨龙;温宇鹏;;自适应的模糊C均值聚类算法[J];吉林化工学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
3 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 Websense中国区总经理 王沛烨;Web安全期待产业变革[N];网络世界;2008年
3 ;Web 2.0数据分析工具正流行[N];网络世界;2008年
4 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
5 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
6 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
7 闫冰;“推”出Web交付新天地[N];网络世界;2009年
8 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
9 张承东;Web智能考核广告[N];网络世界;2009年
10 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 施建中;基于模糊聚类的非线性系统辨识研究[D];华北电力大学;2012年
9 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
10 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 王忠强;基于K-medoids聚类算法Web信息集成方法的研究与实现[D];沈阳建筑大学;2011年
2 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
3 毕晋芝;遗传优化的K均值聚类算法[D];太原理工大学;2010年
4 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
5 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
6 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
7 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
8 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
9 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
10 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026