收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML和SVM的Web文本挖掘研究

任爽  
【摘要】:随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。 论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响,因此,Web文本预处理阶段是至关重要的,需要进行详细而完善的研究。论文还构建了一个Web文本挖掘模型,这个基于XML和SVM的Web文本挖掘的模型主要包含了Web文本预处理和Web文本挖掘的功能,它的优点在于它利用权威页面的确定、XML技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蒋良孝,蔡之华;文本挖掘及其应用[J];现代计算机(专业版);2003年02期
2 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期
3 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
4 郭洪涛;郑光;赵静;姜淼;何晓娟;吕爱平;;基于文本挖掘分析甲型H1N1流感的中医药治疗特色[J];世界科学技术(中医药现代化);2011年05期
5 邹权;林琛;刘晓燕;郭茂祖;;生物信息学中的文本挖掘方法[J];计算机工程与设计;2011年12期
6 陆宇杰;许鑫;郭金龙;;文本挖掘在人文社会科学研究中的典型应用述评[J];图书情报工作;2012年08期
7 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
8 常青;文本挖掘 挖掘知识[J];中国计算机用户;2004年24期
9 刘剑兰;用信息萃取进行文本挖掘的方法[J];情报杂志;2004年12期
10 唐明;张自力;;文本挖掘在多文化交流平台中的应用研究[J];西南师范大学学报(自然科学版);2006年03期
11 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
12 杨生举;蒙杰;赵昕辉;杜雨璐;;基于文本挖掘的科研项目网上评审系统研究与实现[J];甘肃科技;2012年15期
13 吴欣明,李春伟;文本挖掘探析[J];廊坊师范学院学报;2004年04期
14 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
15 袁芳;周艳红;王佳;;通过文本挖掘获取疾病相关功能信息[J];微计算机信息;2009年36期
16 姚轶;;浅谈网络文本挖掘分类[J];科技风;2009年03期
17 龚乐君;韦有兵;谢建明;袁志栋;孙啸;;一种面向基因与疾病关系的文本挖掘方法[J];东南大学学报(自然科学版);2010年03期
18 袁芳;王瑞春;管明祥;万学元;何国荣;周艳红;;基于文本挖掘与功能相似性的疾病基因预测[J];计算机工程;2011年04期
19 阮光册;;基于文本挖掘的网络新闻报道差异分析[J];情报科学;2012年01期
20 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
中国重要会议论文全文数据库 前10条
1 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
2 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
4 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
6 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年
7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
3 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
4 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
5 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
6 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
9 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
10 朱斐;文本数据的生物信息学模型及在前列腺癌中的应用研究[D];苏州大学;2013年
中国硕士学位论文全文数据库 前10条
1 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年
2 刘智勇;基于云计算的文本挖掘算法研究[D];电子科技大学;2011年
3 唐明;文本挖掘及其在多文化交流平台中的应用[D];西南大学;2006年
4 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年
5 张庆;基于本体的文本挖掘结果的存储与表现[D];中国医科大学;2009年
6 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
7 王春锋;基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统[D];北京交通大学;2008年
8 邹振华;基于文本挖掘的量化投资系统[D];华南理工大学;2013年
9 杨青;转录调控信息文本挖掘算法及实现[D];复旦大学;2009年
10 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
中国重要报纸全文数据库 前4条
1 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
2 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978