收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web文本挖掘的SVM网页文本分类研究

刘静  
【摘要】: 随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。 广泛使用的处理Web信息的手段是搜索引擎。目前使用较多的是基于关键字的搜索引擎,在实际应用中存在诸如返回文档数目过大,主题相关性不高等问题,总体查全率和查准率差强人意。对于搜索引擎存在的问题,人们想到了数据挖掘。数据挖掘是从大量数据中提取或“挖掘”知识,将传统的数据挖掘技术与Web结合起来,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的信息。Web挖掘成为数据挖掘一个重要的研究领域。Web挖掘技术能够从Web上海量的数据中自动地,智能地抽取隐藏于这些数据中的知识,弥补了传统搜索引擎的不足并且有更广泛的应用。 处理海量数据的一个重要方法就是将它们分类。网页自动分类是Web文本挖掘领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类把自然语言的文本按其内容划分到一个或多个预先定义好的类别中,是一个非常重要的信息组织和管理手段。 支持向量机(SVM)是由Vapnik及其领导的ATT实验室研究小组提出的一种新的很有发展前途的机器学习算法。在模式识别、回归估计、概率密度函数估计等方面都有应用。在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文本分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。SVM有许多突出的优点,使它适合Web文本信息处理。SVM作为可以广泛应用在网上信息自动分类的方法日益受到研究者的重视。该方法研究小样本情况下的机器学习规律,具有相对较高的性能指标。因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术的重大发展。 本文阐述了Web挖掘的有关理论,给出Web文本挖掘的一般处理过程,并设计了一个基于Web的文本挖掘系统,包括文档采集模块、特征提取模块和挖掘模块。接着介绍统计学习理论,深入探讨了建立在该理论基础上的SVM算法。最后将SVM算法应用到Web文本挖掘之中,对Web文本进行分类。研究了一种用SVM进行主动学习的方法,该方法在保证分类性能的前提下,可有效的提高效率。结果表明SVM算法在Web文本挖掘方面具有很好的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 苏意玲;;一种基于支持向量机和聚类的Web挖掘新方法[J];计算机与现代化;2009年12期
2 刘丽珍;贺海军;陆玉昌;宋瀚涛;;支持向量机在网页信息分类中的应用研究[J];小型微型计算机系统;2007年02期
3 石福斌;;一种基于多Agent技术的Web挖掘模型及应用[J];信息技术;2007年06期
4 杨小云;数字图书馆中数据挖掘研究[J];延安教育学院学报;2005年02期
5 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期
6 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
7 黄鲁成;赵盼;;关于采用Web挖掘方法分析技术发展趋势的思考[J];科技管理研究;2010年21期
8 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期
9 甘新玲;鲁明羽;唐焕玲;李永;;面向循证医学网络文献的SVM分类方法[J];广西师范大学学报(自然科学版);2008年03期
10 刘高勇;汪会玲;;基于支持向量机的网站服务质量实时监控方法[J];武汉大学学报(理学版);2009年02期
11 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
12 王艳;数据挖掘在数字图书馆中的应用[J];现代图书情报技术;2002年05期
13 何建民;刘明星;;面向特定主题的客户抱怨文本分类识别方法[J];合肥工业大学学报(自然科学版);2010年12期
14 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
15 张涛;邓军;;现代远程教育个性化Web挖掘研究[J];科学技术与工程;2007年05期
16 史嘉陵;;数据挖掘在数字图书馆个性化服务中的应用[J];农业网络信息;2009年04期
17 刘晓勇;;基于GA与SVM融合的网页分类算法[J];辽宁工程技术大学学报(自然科学版);2010年05期
18 王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期
19 刘彦保;王文发;王文东;;基于聚类分析策略的Web文本挖掘方法[J];延安大学学报(自然科学版);2007年04期
20 宋军涛;周铜;杜庆灵;;支持向量机和蚁群算法的网页分类研究[J];计算机工程与应用;2009年17期
中国重要会议论文全文数据库 前10条
1 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
4 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
6 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
7 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
8 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
9 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
10 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
3 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
4 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
5 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
6 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
7 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
8 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
9 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
10 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘静;基于Web文本挖掘的SVM网页文本分类研究[D];东北财经大学;2006年
2 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
3 崔鹏;一种基于支持向量机的直推式WEB挖掘[D];大连海事大学;2006年
4 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 黄娟;基于文本挖掘技术的蛋白质相互作用预测方法研究[D];中南大学;2009年
7 应伟;基于支持向量机的文本分类方法研究[D];天津大学;2006年
8 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
9 王栋;基于SVM的分类方法在内容管理中的应用[D];西北大学;2006年
10 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
4 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
5 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
8 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
9 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
10 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978