基于关联规则分类的web用户兴趣预测
【摘要】:Web挖掘是数据挖掘的一个重要的研究方向。Web挖掘突破传统意义上的数据格式的限制,随着Web的发展,它会变得越来越重要,成为web用户更好的获得信息的一个有效的途径。
如何对网上用户分类是web挖掘领域应用最多的任务之一。对网上用户分类可以使网站针对不同的用户提供不同的服务,这样,用户就能方便快捷的获得自己所需的信息。如何有效的找出关于web用户的分类模式知识是web挖掘研究的热点问题,具有重要的理论意义和实用价值。
本文针对数据挖掘技术在web挖掘中的应用进行了研究工作。在第一章绪论中介绍了本论文的研究背景、研究意义,以及论文的主要工作。第二章对数据挖掘技术的定义,结构,过程以及一些分析方法进行了综述。第三章分析Web挖掘当前研究现状,指出了Web挖掘的困难,着重讨论了Web内容挖掘技术。第四章讨论了Web使用挖掘的过程,模式发现的常用算法,详细分析了日志预处理的各个过程。
第五章中对关联规则的经典算法Apriori进行分析,并指出它的一些缺陷,存在的问题,同时,也讨论FP-growth算法,指出用FP-growth算法来挖掘频繁项集可以避免产生大量候选集,并且算法效率有很大的提高。在此基础上,分析了传统分类关联规则挖掘算法产生的问题,提出一种用于web挖掘的分类关联规则挖掘算法。
第六章运用不同的方法来对web用户兴趣预测。试验表明用于web挖掘的分类关联规则挖掘算法是有效的。在全文的分析基础上,提出一种基于web挖掘的网站个性化推荐系统结构。
第七章是全文的总结和研究工作展望。
论文主要做了以下工作:
● 通过对经典关联规则挖掘算法Apriori进行分析,同时,也讨论FP-growth算法,指出用FP-growth算法来挖掘频繁项集可以避免产生大量候选集,并且算法效率有很大的提高。在此分析基础上,分析了传统分类关联规则