收藏本站
《天津大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

序列模式挖掘方法及Web使用挖掘研究

杨钤雯  
【摘要】:序列模式挖掘针对序列数据库,致力于发现序列事件之间的关系,找到事件发生存在的特定顺序。序列模式挖掘是关联规则挖掘的推广,有着广泛的应用价值,例如顾客购买行为分析、Web访问模式分析、科学实验分析、疾病治疗早期诊断、自然灾害预测、DNA序列模式分析等。近年来,序列模式挖掘有了长足的发展,仍然存在许多问题,比如:算法复杂度过高,对大数据集效率低,适应性较差等。本文应用数据挖掘、遗传算法的理论和方法,重点研究了序列模式挖掘方法及在Web使用挖掘领域的应用。主要的研究内容和创新性工作包括: 首先,介绍了数据挖掘的概念和发展情况,评述了数据挖掘的各种技术,面向不同数据类型的挖掘方法。分析了数据挖掘中的聚类技术,聚类的基本理论和方法、算法,以及聚类的详细过程。 其次,针对k-means聚类算法对噪音数据敏感、易收敛到局部极值点、需要人为确定聚类的数目等不足,提出了结合k-medoids方法的遗传算法聚类方法-- GKMD算法。GKMD算法将聚类个数引入到适应值函数中,设计了包含聚类个数和类中心位置的统一编码及相应的交叉与变异算子,使遗传算法在进化的过程中自动确定最优的聚类个数。同时,在算法中嵌入了一种有效的启发式搜索方法,使得整个GKMD算法兼备了较好的全局搜索能力和局部搜索能力。实验表明, GKMD算法显著地改进了对包含噪音和异常点的数据进行聚类的鲁棒性,并能够在保证较高聚类准确率的基础上准确地确定聚类数目。 第三,提出了一种新的结合聚类的两阶段序列模式挖掘方法。第一阶段用k-medoids算法将序列数据聚类到不同的群组,设计了一种n元组结构的序列模表示方法,可以减少序列的维数,并提出了一种新的序列模式相似度计算方法SMCS,能够捕捉序列模式更多的信息,更加准确的计算相似度。第二阶段用层云表展示每一个聚类,提供了更多的普通序列模式挖掘方法不能提供的信息,如转换的频率等,用于辅助显著模式发现和快速抽取。 第四,将提出的序列模式挖掘方法进行了扩展并运用到Web使用挖掘中。分析了与Web用户兴趣行为密切相关的各种因素,给出了Web会话的语义本体表示,提出了一种更为准确的计算语义会话之间的相似度的方法SMSCP。分别采用分割式k-medoids方法和层次式Single link方法,进行序列模式挖掘过程中的Web会话的聚类,并应用层云表展示Web使用挖掘的聚类结果。通过不同的聚类算法以及性能评价指标,在特定的数据集与其它相似度计算指标进行了比较,验证了SMSCP的性能。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 陈春颖;熊拥军;;基于序列模式挖掘的读者借阅行为分析[J];图书情报知识;2011年04期
2 公伟;刘培玉;贾娴;;基于改进PrefixSpan的序列模式挖掘算法[J];计算机应用;2011年09期
3 周坤;王爱荣;张敬谊;熊赟;朱扬勇;;VPM:一个就医行为模式挖掘算法[J];计算机应用与软件;2011年08期
4 李帆;夏士雄;张磊;;基于模糊理论的不确定轨迹模式挖掘[J];微电子学与计算机;2011年08期
5 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
6 成奋华;杨海燕;;基于Gabor小波变换的人脸疲劳模式识别[J];计算机应用;2011年08期
7 王立平;刘艳玲;;web挖掘在农业数字图书馆中的应用[J];农业考古;2011年03期
8 滕启龙;王健;;基于Web挖掘的个性化远程教学系统的研究与实现[J];福建电脑;2011年06期
9 李广原;杨炳儒;刘永彬;刘英华;;多维序列模式挖掘算法[J];计算机工程与设计;2011年07期
10 肖继海;崔晓红;桑莉君;;基于Web挖掘的个性化推荐模型[J];福建电脑;2011年05期
中国重要会议论文全文数据库 前10条
1 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 刘琪;牛文静;顾兆军;;基于API调用序列的恶意代码动态分析方法研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
9 高学东;周磊;;Web点击流数据聚类算法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
10 何星星;谢伙生;;流数据中一种高效剪枝的频繁序列挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 中新;小型机需求趋旺增势将保持到2004年[N];中国工业报;2003年
2 李清河;沉痛的代价[N];中国矿业报;2001年
3 陈家丽;世界小型工程机械的需求趋旺[N];中华建筑报;2003年
4 李希慧;封闭性与开放性相统一理解罪刑法定[N];检察日报;2003年
5 高峰;大营救中显身手[N];中国矿业报;2010年
6 惠琳;数据挖掘 提升核心竞争力[N];首都建设报;2009年
7 杨先碧;科学营救智利矿工[N];大众科技报;2010年
8 杨先碧;利用高科技营救智利矿工[N];学习时报;2010年
9 王树瑜;浦城县翔安新村:临时党支部设在重建点[N];闽北日报;2010年
10 常文;内高路乌海分公司强化“贪逃漏”费管理[N];乌海日报;2011年
中国博士学位论文全文数据库 前10条
1 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
2 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
3 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
4 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
5 赵洁;基于粒计算的Web使用挖掘研究[D];华南理工大学;2010年
6 张榛楠;面向电子商务的Web使用挖掘关键技术研究[D];中国矿业大学(北京);2009年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
9 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
10 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 王永强;基于DF2Ls的序列模式挖掘研究[D];兰州大学;2011年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 陈景强;序列模式挖掘在Web日志挖掘中应用研究[D];重庆大学;2008年
4 秦凤蕊;个性化推荐技术研究及在数字图书馆中的应用[D];长春理工大学;2010年
5 贺军;基于Web日志的序列模式挖掘及其在电子商务中的应用[D];天津大学;2008年
6 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
7 杨钤雯;Web使用挖掘中的会话聚类研究[D];天津大学;2007年
8 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年
9 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
10 梁伟;Web使用挖掘在电子商务推荐系统中的应用研究[D];天津大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026