收藏本站
《大连理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档聚类的研究

刘晨  
【摘要】: 随着互联网技术迅猛发展,XML (eXtensible Markup Language)文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩短信息检索的时间,提高数据查询的效率,挖掘出潜在的信息价值,能够为决策提供更好的数据支持。因此XML文档聚类研究已经成为一个新的研究热点。 本文对XML文档聚类进行了深入研究。而不管是文档聚类、分类或者其它一些数据挖掘分析,一个不可忽视的问题就是相似度的计算,相似度是研究数据挖掘的基础,本文正是基于这种考虑,分别从文档的结构、文档的结构与内容相结合这两个方面重点研究了XML文档相似度的计算方法。首先,在XML文档表示方面本文扩展了XML文档树路径模型,通过加入路径和节点的频率信息,给出了频率-路径模型。然后,在频率-路径模型的基础上,给出了一种带位置和频率权重的基于路径的XML文档结构相似度计算方法PFWLCS(Position and Frequency Weight by Longest Common Subsequence)。并且在真实数据集上做实验表明本文给出的PFWLCS方法在召回率和准确率方面具有很好的效果。接着本文除了考虑XML文档结构方面,同时结合XML文档的元素内容,给出一种新的频率-路径模型,并且以此模型为基础给出了一种将XML文档的结构与内容相结合的相似度计算方法SCSC (Similarity Calculation with Structure and Content)。 最后,在XML文档聚类方面本文给出了一种基于相似度的简单快速的聚类算法:邻域中心聚类法NCC (the Neighbor Center Clustering algorithm with similarity),并通过实验说明NCC算法在XML文档聚类效果上具有较高纯度和F-measure值。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.10

【参考文献】
中国期刊全文数据库 前10条
1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
2 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
3 王桐;刘大昕;;一种新的混合XML文档聚类方法[J];哈尔滨工程大学学报;2007年06期
4 傅珊珊;吴扬扬;;基于频繁结构的XML文档聚类[J];计算机工程与应用;2008年09期
5 杨厚群;何中市;雷景生;;基于划分的XML文档聚类研究[J];计算机科学;2008年03期
6 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
7 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期
8 丘威;;XML文档相似度量应用研究[J];嘉应学院学报;2007年06期
9 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
10 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据的查询技术[J];软件学报;2007年06期
中国硕士学位论文全文数据库 前2条
1 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
2 赵斌;Web挖掘中的XML文档聚类研究[D];山东师范大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 陆渊章;;基于数据挖掘高职院校学生技能考证系统的研究[J];信息安全与技术;2011年07期
3 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
4 王杰,张静,张继生,曾子维;数据挖掘中关联规则的研究与论证[J];鞍山科技大学学报;2005年02期
5 池媛;;传统与现代图书馆的数据挖掘应用[J];安阳师范学院学报;2007年06期
6 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
7 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
8 刘淑东;管群;;基于遗传算法的炮兵火力分配策略[J];兵工自动化;2005年05期
9 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
10 毕鲁雁;焦宗夏;范圣韬;;机电系统多学科综合设计异构信息集成[J];北京航空航天大学学报;2009年04期
中国重要会议论文全文数据库 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
3 阮鸣梁;陈维默;;数据挖掘技术的发展与应用[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
4 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
6 卞步喜;王咏梅;;WEB数据挖掘在CPW中的应用[A];中国企业运筹学学术交流大会论文集[C];2008年
7 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
8 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
9 余启刚;邓娅婷;;基于Matlab的Kohonen神经网络仿真与模糊神经网络相结合在物流网站数据挖掘中的应用[A];'2002系统仿真技术及其应用学术论文集(第四卷)[C];2002年
10 赵宏;申超;;异构视频服务系统集成与调度策略研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
5 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
6 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
7 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
8 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
9 鄢煜尘;基于信息融合的中文笔迹鉴别研究[D];武汉大学;2009年
10 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
4 王晓换;基于粗糙集和神经网络的故障诊断虚拟系统的研究[D];郑州大学;2010年
5 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
6 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
7 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
8 高鹏;基于数字电视平台的制播存一体化研究与设计[D];哈尔滨工程大学;2010年
9 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
10 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵艳厂,谢帆,宋俊德;一种新的聚类算法:等密度线算法[J];北京邮电大学学报;2002年02期
2 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
4 张维,潘福铮;一种基于遗传算法的模糊聚类[J];湖北大学学报(自然科学版);2002年02期
5 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
6 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
9 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
10 刘瑞虹;曹东启;;基于Intranet的Web信息获取方法和实现[J];计算机科学;1999年01期
中国博士学位论文全文数据库 前1条
1 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 杨厚群;何中市;雷景生;;基于划分的XML文档聚类研究[J];计算机科学;2008年03期
2 孙霞;程宏斌;;基于加权层次结构的XML文档相似度算法[J];武汉理工大学学报;2009年18期
3 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
4 潘有能;;XML文档自动聚类研究[J];情报学报;2006年02期
5 王桐;刘大昕;;一种基于改进粒子群优化的XML结构聚类方法[J];小型微型计算机系统;2007年05期
6 于亚新,王国仁,于戈;XBASE:一个语义文档数据库系统[J];小型微型计算机系统;2004年04期
7 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
8 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
9 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
10 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
2 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
5 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
6 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
7 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
8 张晨静;XML关键字过滤技术[D];复旦大学;2011年
9 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
10 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
2 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
3 滕海明;基于语义标记树的XML文档聚类研究[D];浙江大学;2011年
4 刘磊;基于权重边集比较法的XML语义聚类研究[D];山东大学;2010年
5 宫劲松;基于密度与模糊集的XML文档聚类[D];吉林大学;2012年
6 潘奇;基于语言模型的XML信息检索的研究与实现[D];内蒙古大学;2010年
7 李卓;基于编辑图的XML相似性研究[D];吉林大学;2011年
8 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
9 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
10 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026