Web数据的挖掘方法研究
【摘要】:
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘(Data Mining),是指从大型数据库或数据仓库中提取隐含的、未知的及有潜在应用价值的信息或模式。它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。Web挖掘为人工智能领域中数据挖掘技术的一个热点,它实现对Web存取模式、Web结构和规则,以及动态的Web内容的查找功能,是一个更具挑战性的课题。本文研究的主要内容是Web内容(文本)挖掘。
文中首先对数据挖掘及Web挖掘技术进行了概述,对Web数据的特点作了分析和研究,比较了XML与传统数据库的区别,然后选择XML文档来保存数据。其次,根据Web挖掘的任务,给出了本课题的实现方法:神经网络与Boosting算法相结合进行文本分类。本课题的实现方法与单纯基于神经网络的方法相比,在样本的识别率和分类的准确率上都有所提高。
目前,该系统已经能试验性运行,效果良好,达到了预期的学习和实践的目的,为进一步研究Web挖掘奠定了基础。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|