收藏本站
《山东师范大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

Web挖掘中的XML文档聚类研究

赵斌  
【摘要】: 信息技术的快速发展促使Web上的数据爆炸式的增长,如何从海量的Web数据中高效准确的获得想要的知识成为热门的研究课题。Web挖掘就是从Web信息中获取潜在的、有价值的知识或模式的过程,分类、聚类、特征选择等作为Web挖掘的主要技术已经得到长足的发展。聚类分析在Web挖掘中占有重要的地位,所谓聚类就是按照某种相似性度量,根据一定的准则将一个对象集合成若干类,使得同类对象之间尽可能的相似,不同类对象之间尽可能的相异。聚类作为Web挖掘的预处理阶段可以通过分类数据来提高挖掘的效率和精确率。 Web页面多数以HTML文本的形式存在,但随着Web数据的多样化和复杂化,HTML文档已经满足不了信息处理和信息交换的要求。XML是由W3C提出的标准,由于灵活性、开放性和自描述性等特点,逐渐成为Web上主流数据格式和交换标准。因此XML聚类研究具有重要的意义。本文对XML聚类进行了系统的分析和研究,针对XML特性提出了一种能够包含语义的特征提取方法,在此基础上提出一些改进的聚类算法,并在真实文档集和人工文档集上进行了聚类实验。本文工作和创新如下:首先本文对文档聚类的聚类算法和XML相关规范进行了总结分析,指出了目前文档聚类领域常用聚类算法的不足。接着重点研究了XML文档聚类的关键问题—文档相似性度量方法,分析了经典编辑距离法和基于边集的XML文档相似度测度方法,在分析了空间向量模型的基础上提出了标签与路径相结合的XML文档向量模型,根据文档树的层次赋予向量特征一定的权值,能够表达XML元素嵌套的语义信息,通过在示例文档上计算相似度与编辑距离法和基于边集的方法等相似度度量方法进行了比较,计算结果证明此方法对难分文档具有更好的区分能力。 机器学习技术是Web挖掘的重要技术支撑,其中集成学习和半监督学习是机器学习近几年新兴崛起的技术,大量研究和实验已经证明集成学习和半监督学习可以改进聚类和分类的性能。本文基于集成学习和半监督学习对传统聚类算法进行了改进,针对传统单一的划分聚类算法和层次聚类算法的弱点,提出了一种基于Bagging的集成聚类算法,在基聚类器生成阶段使用bootstrap抽样产生原始文档集的多个子集,在文档子集上基于加权的标签和路径特征向量运行划分聚类算法,然后使用聚类共识率来删除低质量的聚类中心,在生成的聚类中心集合上进行层次聚类得到最终的结果。由于集成聚类的计算复杂度较高,本文对提出的集成聚类算法进行了改进,提出一种基于半监督学习的聚类算法,使用适当暂停的模糊划分聚类FCM算法来抽样原始文档集,选择在FCM聚类中心附近的数据点组成数据子集,对数据子集仍然使用层次聚类算法,然后用得到的聚类中心点作为监督信息来指导FCM算法继续执行。最后我们在真实文档集和人工文档集上分别应用本文聚类算法,结果表明本文算法聚类质量优于单一聚类算法,并且具有较高的鲁棒性。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.41

【引证文献】
中国硕士学位论文全文数据库 前2条
1 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
2 李卓;基于编辑图的XML相似性研究[D];吉林大学;2011年
【参考文献】
中国期刊全文数据库 前4条
1 赵艳厂,谢帆,宋俊德;一种新的聚类算法:等密度线算法[J];北京邮电大学学报;2002年02期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
3 周水庚,周傲英,金文,范晔,钱卫宁;FDBSCAN:一种快速 DBSCAN算法(英文)[J];软件学报;2000年06期
4 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
5 张海;王尧;陈冰;胡荣祖;高红旭;赵凤起;;用Boosting算法预测多硝基芳香族化合物的密度[J];火炸药学报;2007年05期
6 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
7 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
8 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
9 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
10 赵艳厂,宋梅,谢帆,宋俊德;用于不同密度聚类的多阶段等密度线算法[J];北京邮电大学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
4 陈峰;桂卫华;王随平;韩晓英;;深海底履带机器车的多神经网络预测控制[A];第二十三届中国控制会议论文集(下册)[C];2004年
5 师凯;蔡延光;邹谷山;王涛;;蚁群算法及粒子群算法对比及在VRP中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 刘峰;瞿俊;;基于聚类分析和神经网络的时间序列预测方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
7 ;SOIL pH FORECAST APPLICATION SYSTEM BASED ON MODIFIED BP NEURAL NETWORK[A];Proceedings of the 3rd International Symposium on Intelligent Information Technology in Agriculture(ISIITA)[C];2005年
8 WalterD.Andrews;JosephP.Campbell;DouglasA.Reynolds;;BOOTSTRAPPING FOR SPEAKER RECOGNITION[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅱ)[C];2000年
9 王俊年;申群太;沈洪远;周鲜成;;一种改进的小生境微粒群算法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
10 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
4 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
5 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
6 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
7 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
8 张开广;郑州地区仰韶文化遗址空间模式研究[D];解放军信息工程大学;2010年
9 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
10 徐迪红;复杂背景下的交通标志检测和分类算法研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
8 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
9 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
10 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
2 施燕斌,刘春红;XML简介及其应用浅析[J];高校图书馆工作;2002年02期
3 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
4 王桐;刘大昕;;一种新的混合XML文档聚类方法[J];哈尔滨工程大学学报;2007年06期
5 郑浩森,汤胤,彭宏,郑启伦;基于树格的范例结构相似性研究[J];计算机工程与应用;2005年05期
6 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
7 傅珊珊;吴扬扬;;基于频繁结构的XML文档聚类[J];计算机工程与应用;2008年09期
8 杨厚群;何中市;雷景生;;基于划分的XML文档聚类研究[J];计算机科学;2008年03期
9 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
10 孙登峰;面向XML文档的概念检索技术[J];计算机应用;2003年01期
中国硕士学位论文全文数据库 前4条
1 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
2 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
3 刘江宏;基于XML的Web数据挖掘技术研究[D];西安科技大学;2009年
4 王成龙;XML文档语义相似性研究综述[D];东北师范大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 杜志强;董方;;基于XML的网络课程资源元数据共享研究[J];天中学刊;2011年02期
2 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
3 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
4 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
5 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
6 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
7 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
8 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
9 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
10 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
中国重要会议论文全文数据库 前10条
1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 江腾蛟;万常选;;基于答案结点的XML文档模糊检索排序模型[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 郑仕辉;何奇;张龙;梁宇奇;周傲英;;XML文档的相似测度研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
9 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
3 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
7 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
8 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
9 张晨静;XML关键字过滤技术[D];复旦大学;2011年
10 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
2 赵斌;Web挖掘中的XML文档聚类研究[D];山东师范大学;2009年
3 张家红;集成分类学习算法研究[D];山东师范大学;2011年
4 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
5 郝丽锋;朴素贝叶斯分类器的集成学习方法研究[D];河北大学;2009年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
8 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
9 潘奇;基于语言模型的XML信息检索的研究与实现[D];内蒙古大学;2010年
10 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026