收藏本站
《西安科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的Web数据挖掘技术研究

刘江宏  
【摘要】: 近年来许多传统数据挖掘研究者,已逐步从传统数据挖掘领域过渡到Web数据挖掘领域。随着Web上XML数据量爆炸式的增长,XML已成为Internet上数据交换和数据表示的事实标准,并且在将来XML将代替HTML而成为Web上驻留数据的主要格式,于是,基于XML的数据挖掘方法已经成为Web数据挖掘领域和XML技术领域的一个研究热点。 面向Web的数据挖掘技术与面向传统数据库的挖掘技术不同,基于XML的Web数据挖掘过程中,一般要将HTML数据格式转换成XML格式,再对XML数据进行相关挖掘操作。目前,多数基于XML数据的挖掘算法是用半结构化数据模型来描述XML数据的,并在此基础上进行频繁模式发现,而用半结构化数据模型描述XML数据时具有一定的缺陷,因此影响了挖掘算法的性能。针对上述问题,论文做了如下工作: 1.描述了一个基于XML的Web数据频繁模式挖掘框架结构,它在原有半结构化数据模式挖掘算法的基础上,根据XML数据的模型特点,对频繁模式挖掘算法进行了归类;依照半结构化数据的产生方式、组织形式、存储结构,抽象和总结了原有的XML数据挖掘算法。 2.分析了半结构化数据模型描述XML数据时存在的一些缺陷,针对这些缺陷,研究了一种面向XML的扩展标记树模型ETM,作为XML数据挖掘任务使用的数据模型。 3.使用ETM有序树作为数据模型,给出了XMLFPTMiner算法来挖掘XML中的频繁模式树,并研究了一种修剪策略对XMLFPTMiner算法进行改进。根据修剪策略,可以直接从某些已知频繁子树中产生某些未知频繁子树,因此减少了算法在候选子树的产生和支持度计算上的开销,从而提高了算法的效率。
【学位授予单位】:西安科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前3条
1 洪辉 ,刘子敬 ,李石君 ,欧伟杰;智能WEB信息提取系统的研究和设计[J];微计算机信息;2005年23期
2 陈二忠,姜丽华;基于Web的数据挖掘技术[J];微机发展;2003年12期
3 蒋良孝,蔡之华;Web挖掘及其应用研究[J];现代计算机;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 李学桥,玉温习,卢中宁;大型商场电子商务网站的设计[J];郑州轻工业学院学报(自然科学版);2001年01期
2 王艳;数据挖掘在数字图书馆中的应用[J];现代图书情报技术;2002年05期
3 宋爱波,董逸生,陈静;基于Weblog的模式发现及应用的研究[J];小型微型计算机系统;2002年11期
4 蒋良孝,蔡之华;Web挖掘及其应用研究[J];现代计算机;2003年03期
5 王成云,王乐乐;基于页面链接挖掘的Web教育信息检索[J];情报科学;2004年04期
6 黄媛;构建基于Web数据挖掘的信息服务系统[J];情报探索;2004年04期
7 郭兴凯,阚忠良;数据库开发中的多层客户/服务器结构[J];黑龙江大学自然科学学报;2000年04期
8 刘明晶;利用客户访问日志数据研究客户需求和服务设计[J];华南金融电脑;2001年12期
9 周涛,李军,陆惠玲;WEB数据挖掘技术研究[J];汉中师范学院学报;2004年03期
10 朱征宇,朱庆生,张宏森;基于内容模块化的网页快速浏览技术[J];计算机工程与应用;2002年10期
中国重要会议论文全文数据库 前1条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 徐德智;XML数据库查询及其模式集成研究[D];中南大学;2004年
2 王占全;基于地理信息系统空间数据挖掘若干关键技术的研究[D];浙江大学;2005年
3 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
4 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
5 鱼滨;基于XML的集成中间件技术研究[D];西北大学;2003年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
8 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
9 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年
10 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 邓莎莎;基于互联网的异构数据源集成的研究与实现[D];中南大学;2005年
2 何芳;基于模式的XML查询重写及索引技术研究[D];中南大学;2005年
3 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
4 朱晶;基于WEB的数据挖掘研究[D];长春理工大学;2004年
5 邢军;图书馆知识服务平台构建研究[D];东北大学;2006年
6 常跃峰;E-learning环境下用户兴趣模型研究与应用[D];山东大学;2006年
7 谢辉;Web访问信息挖掘及其应用[D];中国科学院研究生院(计算技术研究所);2000年
8 徐冉;网页信息净化方法的研究与实现[D];哈尔滨工程大学;2007年
9 李凌霞;多Agent在Web数据挖掘系统中协作机制的研究[D];哈尔滨工程大学;2007年
10 房晓南;Web数据挖掘在电子商务推荐系统中的应用研究[D];山东师范大学;2007年
【同被引文献】
中国期刊全文数据库 前2条
1 施燕斌,刘春红;XML简介及其应用浅析[J];高校图书馆工作;2002年02期
2 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
中国硕士学位论文全文数据库 前1条
1 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
【二级参考文献】
中国期刊全文数据库 前6条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 李静,陈兆乾,陈世福,徐殿祥;多Agent Teamwork研究综述[J];计算机研究与发展;2003年03期
3 陈新中,李岩,谢永红,杨炳儒;Web挖掘研究[J];计算机工程与应用;2002年13期
4 恽爽,韩立新,董浚,陈道蓄;KDW综述:基于Web的数据挖掘[J];计算机工程;2003年01期
5 聂培尧,魏振刚;一种基于XML的数据集成系统及实现[J];计算机应用;2002年09期
6 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
【相似文献】
中国期刊全文数据库 前10条
1 刘勇;徐立波;于文波;马黎;;XML在Web数据挖掘中的应用探讨[J];电脑知识与技术;2011年08期
2 温华菁;陈红娟;;基于XML进行Web数据挖掘浅析[J];商场现代化;2009年04期
3 张建喜,王洪国,赵培英;XML在Web数据挖掘技术中的应用[J];信息技术与信息化;2005年05期
4 唐红光;周铁军;;基于XML的Web数据挖掘技术[J];民营科技;2007年01期
5 王晓东;江元;徐超;;XML技术在Web数据挖掘中的应用[J];中国科技信息;2008年18期
6 刘江宏;刘金瑄;;基于Web的数据挖掘系统模型的探讨[J];科技信息(科学教研);2008年23期
7 谢兰云;;XML与Web数据挖掘[J];商业研究;2005年21期
8 张荣富;;XML在Web数据挖掘技术中的应用相关问题探索[J];现代经济信息;2010年02期
9 阮忠;杨云峰;;使用XML基于Web的数据挖掘及其应用[J];电脑知识与技术;2008年09期
10 文燕平;;基于XML的Web数据挖掘集成应用研究[J];商场现代化;2008年34期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
6 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 王旭红;遥感影像数据挖掘技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 郑东飞;基于XML的Web数据挖掘技术研究与实现[D];山东大学;2005年
2 廖鹏;基于XML的Web数据挖掘及关联算法的研究[D];西南大学;2009年
3 李姝;基于XML的Web数据挖掘研究[D];大连海事大学;2007年
4 刘江宏;基于XML的Web数据挖掘技术研究[D];西安科技大学;2009年
5 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
6 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
7 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
8 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
9 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
10 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026