收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析及其在Web日志挖掘中的应用研究

王小姣  
【摘要】:随着互联网的快速发展及数据库的广泛应用,信息的供给能力和对信息的分析能力之间的矛盾日益突出,人们迫切需要一种能够对数据信息进行深入研究和分析的自动化技术。数据挖掘技术正是在这种信息广泛而知识贫乏的情况下应运而生的。聚类分析是数据挖掘中的一个重要分支,属于无监督学习的范畴,是人们认识现实世界的一种重要方法。聚类分析可以作为一个独立的工具来获得数据的分布情况,观察每个类的特点,以便于集中对某些特定的类做深入的分析。此外,聚类分析还可以作为其它算法的预处理步骤。传统的聚类分析是一种硬划分,分类的类别界限是分明的,具有非此即彼的性质。然而在现实世界中,许多事物并没有严格的区分界限,因此在对事物进行聚类分析时就必然伴随着模糊性,模糊聚类分析技术由此产生。 Web日志挖掘是数据挖掘领域中一个新的研究热点,Web日志中记录了大量网络用户的行为信息,通过对Web日志的挖掘能够发现用户访问行为特征和潜在规律,分析得到的特征和规律可以识别潜在的客户群,提高网站服务质量。将聚类分析技术应用于Web日志挖掘中,通过深入分析用户的访问行为可以将具有相同兴趣的用户自动分类以及发现被相同用户访问的页面组,进而可以帮助优化网站结构、推荐个性化服务等。同时由于Web数据的无结构化特征,在进行聚类之前必须对日志数据进行预处理。 本文在介绍数据挖掘、聚类分析、模糊理论及Web日志挖掘的基本概念和相关知识的基础之上,主要针对模糊聚类分析中的模糊C-均值(FCM)聚类算法及其存在的不足进行了深入的研究。模糊C-均值聚类算法是模糊聚类分析中应用最广泛的算法之一。该算法是一种基于目标函数的聚类算法,并通过极小化目标函数来求得最优解。算法设计简单,应用范围广,但同时也存在着许多需要解决的问题,如:需要人为定义聚类原型参数、聚类结果易陷入局部最优、对球状簇以外的数据集的发现能力差等。 在众多研究成果的基础上,本文针对FCM算法存在的不足,进行了深入的研究,并通过具体的分析过程给出了相应的改进措施。文章主要从两方面对算法进行了改进:一方面,在选择初始聚类中心时按相应的规则,利用搜索数据矩阵的方法在全局范围内有目的的选取,有效降低了算法受初始值影响易陷入局部极值的可能性。另一方面,采用冗余聚类中心的方法先将大簇分割成多个小簇,再按一定条件将相邻的小簇合并。将改进后的算法应用于Web日志挖掘中,得到了有效的用户聚类和页面聚类结果。通过实验结果可看到改进后的FCM算法减小了对初始聚类中心的依赖,聚类结果更加精确。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 张新波;两阶段模糊C-均值聚类算法[J];电路与系统学报;2005年02期
2 高永清;陈志红;黄鹤玲;倪钊滨;李霆;;基于FCM的无监督最优模糊聚类算法[J];信息技术;2009年07期
3 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
4 董一鸿,庄越挺;基于新型的竞争型神经网络的Web日志挖掘[J];计算机研究与发展;2003年05期
5 周傲英,周水庚,曹晶,范晔,胡运发;Approaches for Scaling DBSCAN Algorithm to Large Spatial Databases[J];Journal of Computer Science and Technology;2000年06期
6 吴健,董金翔;关于个性化网站的研究[J];计算机应用研究;2000年09期
7 涂承胜,鲁明羽,陆玉昌;Web内容挖掘技术研究[J];计算机应用研究;2003年11期
8 喻云峰;聂承启;;聚类分析中Chameleon算法的分析与实现[J];计算机与现代化;2006年09期
9 高新波,谢维信;模糊聚类理论发展及应用的研究进展[J];科学通报;1999年21期
10 胡玉锁;陈宗海;;基于混合遗传算法的聚类分析[J];模式识别与人工智能;2001年03期
中国硕士学位论文全文数据库 前3条
1 严骏;模糊聚类算法应用研究[D];浙江大学;2006年
2 马飞;数据挖掘中的聚类算法研究[D];南京理工大学;2008年
3 孔攀;模糊聚类分析及其有效性研究[D];西南大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
3 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
4 黄初龙;邓伟;卢晓宁;;区域农业水资源可持续利用模糊综合评价[J];安徽农业科学;2009年05期
5 郗伟东;石玉月;田巍;;基于风险模式提取的农户生猪饲养规制研究[J];安徽农业科学;2009年07期
6 吉奇;;利用模糊数学方法预测秋白菜适宜收获期[J];安徽农业科学;2010年18期
7 李爱新;;基于产能核算的鄱阳湖生态经济区耕地整理区划[J];安徽农业科学;2012年16期
8 郭有强;胡学钢;;基于项目增长法高效求解最大频繁项集[J];安徽科技学院学报;2006年06期
9 翟剑锋;;基于遗传算法的模糊聚类在考试成绩分析中的应用[J];信息安全与技术;2012年04期
10 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 赵建玉;贾磊;陈月辉;张勇;;基于粒子群优化的信号交叉口交通流预测模型[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
4 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
5 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
6 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
7 王海荣;;石油化工企业的静电火灾隐患评估[A];节能环保 和谐发展——2007中国科协年会论文集(四)[C];2007年
8 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
9 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
3 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
4 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
6 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
7 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
8 张开广;郑州地区仰韶文化遗址空间模式研究[D];解放军信息工程大学;2010年
9 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
10 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
中国硕士学位论文全文数据库 前10条
1 蔡静颖;模糊c-均值算法的研究[D];辽宁师范大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
4 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
5 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
6 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
7 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
8 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
9 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
10 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 于剑,程乾生;模糊划分的一个新定义及其应用[J];北京大学学报(自然科学版);2000年05期
2 王涛,沈谦,冯焕清;一种改进的模糊聚类算法[J];电路与系统学报;1999年01期
3 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
4 刘健庄;基于二维直方图的图象模糊聚类分割方法[J];电子学报;1992年09期
5 裴继红,范九伦,谢维信;一种新的高效软聚类方法:[J];电子学报;1998年02期
6 高新波,薛忠,李浩,谢维信;一种多类原型模糊聚类的初始化方法[J];电子学报;1999年12期
7 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
8 于剑,程乾生;关于聚类有效性函数FP(u,c)的研究[J];电子学报;2001年07期
9 罗敏,王丽娜,张焕国;基于无监督聚类的入侵检测方法[J];电子学报;2003年11期
10 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
中国博士学位论文全文数据库 前2条
1 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
2 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
中国硕士学位论文全文数据库 前2条
1 孟增辉;聚类算法研究[D];河北大学;2005年
2 呼延琢;基于决策树算法的数据挖掘的应用[D];西安电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 陶剑文;;基于Agent的Web日志挖掘系统模型研究[J];微计算机应用;2006年03期
2 白青伟;;"军卫一号"日志挖掘技术[J];医学信息;2007年11期
3 程其江;吕述望;;关联规则在WAP增值业务日志挖掘中的应用[J];计算机应用;2008年S1期
4 丁兴华;陈俊杰;;基于主成分分析法的Web页面推荐算法[J];电脑开发与应用;2009年07期
5 张大雷;;基于日志的网络管理系统的设计与实现[J];电信快报;2009年10期
6 王媛媛;钟永恒;;基于SQL Server 2005的Web日志挖掘系统构建[J];现代图书情报技术;2006年05期
7 朱有存;罗丹;王梅;;“军卫一号”日志挖掘技术[J];医疗卫生装备;2006年08期
8 马玉妍;韩志;;数字图书馆用户使用信息挖掘与应用[J];图书馆理论与实践;2007年02期
9 雷萍;吕英华;余阳;;基于数据挖掘的工作流过程优化研究[J];中山大学学报论丛;2007年02期
10 隆功伦;席光文;;基于关联规则的虚拟主机网站日志挖掘[J];重庆文理学院学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 周莉;张勇;邢春晓;;ULMF:一种基于构件的通用日志挖掘框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 王军;宋宝燕;于戈;;一种Web日志挖掘数据预处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 师文清;叶晓俊;;基于查询日志挖掘的网页聚类研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 王洪俊;赖志国;施水才;肖诗斌;;基于查询日志的查询建议挖掘[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 郭新涛;梁敏;阮备军;朱扬勇;;挖掘Web日志降低信息搜寻的时间费用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
8 黎陨;詹晓红;孙莉;;基于频繁遍历路径的个性化推荐系统[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 张海威;袁晓洁;窦志成;;基于Web日志的时序关联规则挖掘算法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前6条
1 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
2 王彤;数据挖掘的新技术研究[D];天津大学;2007年
3 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
4 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
5 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
6 范举;关键词查询的推荐技术研究[D];清华大学;2012年
中国硕士学位论文全文数据库 前10条
1 宁兴旺;基于日志挖掘的网络安全审计系统研究与实现[D];山东师范大学;2010年
2 桂辉;WEB日志挖掘在网站推荐服务中的应用研究[D];华北电力大学(北京);2011年
3 史振华;基于Web日志挖掘的网站优化技术与应用[D];武汉理工大学;2010年
4 杨鹏;Web日志挖掘数据预处理算法研究与实现[D];北京邮电大学;2011年
5 刘宇婷;基于Web日志挖掘的个性化服务研究与应用[D];北京理工大学;2010年
6 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
7 赵伟;基于Web日志的用户访问模式挖掘[D];天津大学;2004年
8 孙赵平;基于关联规则的web日志挖掘应用研究[D];安徽大学;2010年
9 韩莉;基于概念格的Web使用日志挖掘及其在个人化技术中的应用[D];安徽大学;2003年
10 王靓明;融合多重模糊矩阵_SOFM的Web日志挖掘研究[D];南昌大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026