基于支持向量机的Web文本挖掘研究
【摘要】:随着Internet的飞速发展,网上的信息资源空前的丰富。人们迫切需要拥有能够从中快速、有效地发现资源和知识的工具,提高在Web上检索信息、利用信息的效率。将传统的数据挖掘与Web结合进行Web挖掘,已成为数据挖掘的一个重要和繁荣的子领域。
支持向量机是由Vapnik及其领导的ATT实验室研究小组提出的一种新的非常有发展前途的机器学习算法。因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。
本文首先对Web挖掘的有关理论进行了论述,详细描述了Web文本挖掘系统的设计,包括Web文本挖掘系统的系统结构、模块功能等。接着对统计学习理论进行了介绍,深入探讨了建立在该理论基础上的SVM算法。最后将SVM算法应用到Web文本挖掘中,对Web文本进行分类。研究了一种用SVM进行主动学习的方法,该方法与普通的SVM方法相比,在保证分类性能的前提下,可有效的提高效率。同时表明了SVM算法在Web文本挖掘方面具有很好的应用前景。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||
|