收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML和SVM的Web文本挖掘研究

任爽  
【摘要】:随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。 论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响,因此,Web文本预处理阶段是至关重要的,需要进行详细而完善的研究。论文还构建了一个Web文本挖掘模型,这个基于XML和SVM的Web文本挖掘的模型主要包含了Web文本预处理和Web文本挖掘的功能,它的优点在于它利用权威页面的确定、XML技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 陈丽娟,窦迅,张金望;基于XML的数据库信息交互[J];福建电脑;2003年11期
2 王一蕾,林世平;Web文本挖掘三种技术的比较[J];福建电脑;2003年12期
3 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
4 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
5 钟艳花,余伟红,余永权;Web文本挖掘系统及其关键技术研究[J];计算机工程与应用;2003年34期
6 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
7 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
8 李亮,刘万春,徐泉清,朱玉文;一种基于支持向量机的专业中文网页分类器[J];计算机应用;2004年04期
9 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类方法的研究与实现[J];计算机应用;2004年S1期
10 张蓉;一种快速有效的Web文档聚类方法[J];计算机应用研究;2004年04期
中国硕士学位论文全文数据库 前4条
1 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
2 黄隽毅;关于Web数据挖掘中HITS算法的研究[D];大连理工大学;2004年
3 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
4 李健;聚类分析及其在文本挖掘中的应用[D];西安电子科技大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 陈基漓;牛秦洲;;WEB挖掘在农业信息网站个性化服务中的应用[J];安徽农业科学;2008年35期
2 陈键;胡学刚;;词分布均衡度评价特征词选取方法的文本分类[J];安徽科技学院学报;2009年02期
3 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
4 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
5 李荣艳;金鑫;王春辉;郑宁;别荣芳;;一种新的中文文本分类算法[J];北京师范大学学报(自然科学版);2006年05期
6 薛松;张钟澍;殷知磊;;贝叶斯算法在反垃圾邮件应用中的改进方案[J];成都信息工程学院学报;2009年04期
7 叶飞;;基于文本语义联系的特征选取算法研究[J];赤峰学院学报(自然科学版);2012年12期
8 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
9 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
10 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期
中国重要会议论文全文数据库 前10条
1 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
2 闫晓飞;陈良臣;孙功星;;支持向量机多类分类算法的研究[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
3 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
4 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
5 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
7 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 赵野军;橡胶挤出机智能CAD的技术和方法研究[D];北京化工大学;2005年
7 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
8 尹章才;地图表达机制及其基于可扩展标记语言的描述[D];武汉大学;2005年
9 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
10 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
5 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
6 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
7 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
8 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
9 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
10 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期
3 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
4 钟智,黄发良;基于个性化服务的元搜索引擎模型[J];河北理工学院学报;2005年01期
5 孙兆林,李一兵,田园;分布式模型的分析研究[J];信息技术;2002年07期
6 杨海东;叶小岭;;搜索引擎中无效链接情况的分析及对策[J];淮阴师范学院学报(自然科学版);2007年01期
7 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
8 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
9 蒋凯;武港山;;基于Web的信息检索技术综述[J];计算机工程;2005年24期
10 潘宇斌,陈跃新;基于Ontology的自然语言理解[J];计算技术与自动化;2003年04期
中国硕士学位论文全文数据库 前8条
1 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
2 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
3 孙文礼;电子商务系统中的全文检索及排序优化算法[D];浙江大学;2008年
4 吴虹;基于本体与模糊数学的自动分词系统研究[D];北京理工大学;2008年
5 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
6 谢政;基于贝叶斯方法的分类问题研究[D];中南大学;2008年
7 林雪楠;一种改进的专题搜索结果排序算法的研究[D];大连海事大学;2008年
8 张芳;基于专业搜索引擎的元搜索引擎的研究与实现[D];华中科技大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
2 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
3 张晋,陈立潮,田容;未来基于Web的通用数据格式——XML[J];华北工学院学报;2001年02期
4 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
5 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
8 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
9 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
10 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
【相似文献】
中国期刊全文数据库 前10条
1 亓洪标;李安;胡柏青;;基于XML的web文本挖掘方法与模型研究[J];微计算机信息;2006年33期
2 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
3 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
4 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
5 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
6 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
7 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
8 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
9 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
10 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
7 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
8 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
9 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
10 朱晓冬;数字博物馆关键技术研究[D];西北大学;2004年
中国硕士学位论文全文数据库 前10条
1 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年
2 马宏伟;基于XML的Web文本挖掘应用研究[D];合肥工业大学;2009年
3 张福辉;基于XML和SVM的Web文本挖掘研究[D];电子科技大学;2008年
4 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
5 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
6 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
7 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
8 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
9 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
10 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026