收藏本站
《大连海事大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的Web数据挖掘研究

李姝  
【摘要】:随着Internet的高速发展,他已经成为最密集、最丰富的信息来源。在这些海量数据中蕴藏着怎样的信息,如何找到用户感兴趣的信息逐渐成为人们关注的焦点。作为从Web文档和Web活动中抽取潜在的、有用的模式和隐藏信息的有效技术,Web数据挖掘悄然兴起,备受关注。由于XML具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,使用户能够对Web信息实施精确查询与模型抽取,因此将XML与Web数据挖掘相结合进行研究逐渐成为了数据挖掘领域内的一个新热点。 本文从XML与Web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型,详细设计了基于XML的Web网页内容挖掘子系统,并针对XML在该子系统中的具体应用展开研究,对该系统的具体环节提出用XML技术来解决的途径。 本文研究和探讨了使用XML作为数据交换格式对Web上的数据进行挖掘。在数据预处理的过程中,设计并实现了HTML-XML的转换模型。该模型是一种自动的通用的转换模型,突破了以往的转换模型需要人工参与或只能针对某一领域的特定信息进行转换的不足,能有效的将HTML Web页转换为XML文档。 Web上的数据以多种形式存在,被称之为半结构化的数据。本文重点研究了针对半结构化数据的关联规则挖掘问题。传统的关联规则挖掘问题可以分解为两个子问题:频繁相集挖掘以及由频繁相集产生强关联规则。而频繁相集挖掘是基于结构化数据的,无法直接应用到半结构化的数据上。本文通过对半结构化数据的数据模型进行挖掘,也就是频繁子树的挖掘,实现丁关联规则的知识发现。在频繁子树的挖掘过程中,本文对经典的Tree Miner算法进行了改进,实验结果表明改进后的算法由于进行了有效的剪枝,减少了计算次数,从而减少了运行时间。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP393.09;TP311.10

【引证文献】
中国硕士学位论文全文数据库 前3条
1 邢欣来;人物简历问答系统的研究与实现[D];重庆大学;2009年
2 汪平;基于XML的Web数据挖掘研究[D];南京理工大学;2009年
3 王燕;基于XML的Web文本挖掘及关联算法的研究[D];江苏科技大学;2011年
【参考文献】
中国期刊全文数据库 前3条
1 姜霞,张晓伟;基于XML的Web挖掘技术研究[J];电脑知识与技术;2005年20期
2 王玮,陈恩红,王煦法;关联规则的相关性研究[J];计算机工程;2000年07期
3 黄晓斌;HTML向XML转换的研究[J];现代图书情报技术;2003年01期
中国博士学位论文全文数据库 前2条
1 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
2 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
中国硕士学位论文全文数据库 前2条
1 陈明建;基于WEB的数据挖掘技术——WEB内容挖掘的设计与实现[D];电子科技大学;2003年
2 郑东飞;基于XML的Web数据挖掘技术研究与实现[D];山东大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 旷玲丽;陶宏才;;Web挖掘相关问题的研究[J];成都信息工程学院学报;2009年06期
2 王剑;常晋义;苏剑峰;;关联规则评价体系的改进[J];常熟理工学院学报;2010年02期
3 林华;;现代医院病案统计分析存在的问题与对策[J];当代经济;2009年24期
4 霍江;;HTML文档的预处理[J];电脑知识与技术(学术交流);2007年21期
5 高琳;覃桂敏;周晓峰;;图数据中频繁模式挖掘算法研究综述[J];电子学报;2008年08期
6 覃桂敏;高琳;呼加璐;;生物网络模体发现算法研究综述[J];电子学报;2009年10期
7 陆惠玲,周涛;数据挖掘中的关联规则分析[J];福建电脑;2005年11期
8 周常恩;林端宜;杨雪梅;赖新梅;褚剑锋;;频繁模式挖掘算法综述[J];福建电脑;2010年02期
9 刘建华;从数据中挖掘知识[J];福建师范大学学报(自然科学版);2001年04期
10 刘建华;关联规则挖掘的新模型[J];福建师范大学学报(自然科学版);2004年02期
中国重要会议论文全文数据库 前1条
1 王剑;徐英杰;陆黎明;;关联规则的评价体系[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 张硕;图数据库查询处理技术的研究[D];哈尔滨工业大学;2010年
2 陈湘涛;数据仓库与数据挖掘技术在新型铝电解控制系统中的应用研究[D];中南大学;2004年
3 束志恒;化学化工数据挖掘技术的研究[D];浙江大学;2005年
4 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
5 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
6 张锦;Internet环境下协同工作与数据挖掘研究[D];复旦大学;2004年
7 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年
8 李晓东;城市污水处理厂数据挖掘及相关技术研究[D];湖南大学;2007年
9 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
10 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
中国硕士学位论文全文数据库 前10条
1 万寿庆;复杂交通网络救援点和事故点间路段重要性测评模型研究[D];南京航空航天大学;2010年
2 邓英;数据仓库与数据挖掘技术理论及应用的研究[D];甘肃工业大学;2001年
3 张梅凤;挖掘有效关联规则算法的分析与设计[D];郑州大学;2001年
4 罗芳;数据挖掘和XML技术的研究[D];武汉理工大学;2002年
5 于青子;具有明确语义的关联规则挖掘系统的研究与实现[D];河海大学;2002年
6 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
7 程军;油气化探中数据挖掘技术研究[D];合肥工业大学;2002年
8 于小红;个性化电子商务网站的研究与实现[D];四川大学;2001年
9 陈耿;数据挖掘技术及其在用户行为分析系统中的应用[D];西南交通大学;2003年
10 周婕;数据挖掘若干方法研究及其在中医药数据库中的应用[D];西南交通大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 李季;孙冀侠;;标准中文问答系统的研究与实现[J];鞍山师范学院学报;2005年06期
2 宋爱波,胡孔法,董逸生;Web日志挖掘[J];东南大学学报(自然科学版);2002年01期
3 李环;;基于XML的Web数据挖掘技术的研究[J];福建电脑;2008年04期
4 况莉莉;;Apriori算法与FP-tree算法的探讨[J];淮北煤炭师范学院学报(自然科学版);2010年02期
5 常勇;王亮;姚增利;袁方;;基于领域知识和决策树的Deep Web数据标注[J];广西师范大学学报(自然科学版);2009年01期
6 马强;陶导;钱卫宁;周傲英;;TLGM-QL:基于图模型的Web数据分析性查询语言[J];广西师范大学学报(自然科学版);2009年01期
7 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
8 王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期
9 王宇;战学刚;蔡建山;;基于网络的中文问答系统的研究[J];计算机工程与应用;2006年07期
10 杨科;赖朝安;赵阳;;基于XML数据的FP-growth算法挖掘研究[J];计算机工程与应用;2008年19期
中国重要会议论文全文数据库 前1条
1 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 王实;基于Web访问信息挖掘的推荐方法研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 苏大威;基于关联规则发现的Web挖掘[D];河海大学;2002年
3 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
4 郑东飞;基于XML的Web数据挖掘技术研究与实现[D];山东大学;2005年
5 丁豪;基于自然语言处理的文本自动校对系统[D];电子科技大学;2006年
6 聂电开;基于序列编码频繁子树挖掘算法研究[D];兰州大学;2007年
7 王礼刚;基于XML的Web文本数据挖掘研究[D];西南大学;2007年
8 曹春静;基于XML和Web数据的关联规则挖掘研究[D];华东师范大学;2008年
9 谢祥明;基于XML的Web数据挖掘[D];华中师范大学;2008年
10 张学冰;Web数据挖掘中XML应用及关联算法改进[D];山东大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前3条
1 赵素娟;基于互联网的人物简历问答系统的研究与设计[D];东北财经大学;2010年
2 魏爽;基于移动Agent的Web分布式聚类挖掘算法的研究[D];华中师范大学;2011年
3 袁征;异构数据库访问方案设计及在电子客票系统中的实现[D];暨南大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 于亚新,于戈,王国仁;并行XML数据库系统处理机分配策略[J];东北大学学报;2003年08期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
4 胡勤友,胡运发;基于扩展路径表达式的XML查询[J];计算机研究与发展;2003年05期
5 于亚新,王国仁,于戈;并行XML数据库系统中数据分片策略的研究[J];计算机研究与发展;2003年10期
6 路燕,张亮,汪卫,张彪,施伯乐;一种新的XML文档编码机制[J];计算机研究与发展;2004年03期
7 李建新,王国仁,汤南,王斌,于亚新,张海宁;基于直方图的并行结构连接算法[J];计算机研究与发展;2004年10期
8 李青山,陈平;一种基于内容的HTML到XML转换策略[J];计算机工程与应用;2001年09期
9 黄解军,潘和平,万幼川;数据挖掘技术的应用研究[J];计算机工程与应用;2003年02期
10 邵晓巍,赵长安,赵景珠,邵长胜;数据仓库的多维数据模型研究[J];计算机工程与应用;2004年11期
【相似文献】
中国期刊全文数据库 前10条
1 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
2 陈韶霞;;计算机Web数据及其在电子商务中的应用探析[J];现代商贸工业;2011年12期
3 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
4 杜志强;董方;;基于XML的网络课程资源元数据共享研究[J];天中学刊;2011年02期
5 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
6 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
7 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
8 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
9 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
10 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
中国重要会议论文全文数据库 前10条
1 岳昆;吴益忠;王晓玲;周傲英;;基于转换技术的XML文档规范化及更新[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 郭瑞强;苏仕云;乐嘉锦;;XML数据的存储模式研究[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 张晓琳;谭跃生;张军;王国仁;;面向对象XML查询代数研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 王天亮;陈刚;徐宏炳;;基于对象树相似匹配的XML重复对象检测[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 李然;张云霞;汪卫;施伯乐;;改进的贪心算法在数字图书馆XML元数据存储中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
4 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
5 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
6 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
7 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
8 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
9 张晨静;XML关键字过滤技术[D];复旦大学;2011年
10 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 李姝;基于XML的Web数据挖掘研究[D];大连海事大学;2007年
2 廖鹏;基于XML的Web数据挖掘及关联算法的研究[D];西南大学;2009年
3 郑东飞;基于XML的Web数据挖掘技术研究与实现[D];山东大学;2005年
4 任辉;XML数据到关系数据映射的研究[D];安徽理工大学;2006年
5 王瑞;半结构化数据集成技术研究[D];大庆石油学院;2007年
6 刘江宏;基于XML的Web数据挖掘技术研究[D];西安科技大学;2009年
7 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
8 陈继明;基于正则路径表达式的XML查询优化技术的研究与实现[D];江苏大学;2005年
9 周超;半结构化XML数据与关系数据库之间转换的应用与研究[D];武汉理工大学;2006年
10 黄蓓蓓;基于XML的多媒体数据转换存储研究[D];暨南大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026