收藏本站
《大连理工大学》 2010年 硕士论文
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档聚类的研究

刘晨  
【摘要】: 随着互联网技术迅猛发展,XML (eXtensible Markup Language)文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩短信息检索的时间,提高数据查询的效率,挖掘出潜在的信息价值,能够为决策提供更好的数据支持。因此XML文档聚类研究已经成为一个新的研究热点。 本文对XML文档聚类进行了深入研究。而不管是文档聚类、分类或者其它一些数据挖掘分析,一个不可忽视的问题就是相似度的计算,相似度是研究数据挖掘的基础,本文正是基于这种考虑,分别从文档的结构、文档的结构与内容相结合这两个方面重点研究了XML文档相似度的计算方法。首先,在XML文档表示方面本文扩展了XML文档树路径模型,通过加入路径和节点的频率信息,给出了频率-路径模型。然后,在频率-路径模型的基础上,给出了一种带位置和频率权重的基于路径的XML文档结构相似度计算方法PFWLCS(Position and Frequency Weight by Longest Common Subsequence)。并且在真实数据集上做实验表明本文给出的PFWLCS方法在召回率和准确率方面具有很好的效果。接着本文除了考虑XML文档结构方面,同时结合XML文档的元素内容,给出一种新的频率-路径模型,并且以此模型为基础给出了一种将XML文档的结构与内容相结合的相似度计算方法SCSC (Similarity Calculation with Structure and Content)。 最后,在XML文档聚类方面本文给出了一种基于相似度的简单快速的聚类算法:邻域中心聚类法NCC (the Neighbor Center Clustering algorithm with similarity),并通过实验说明NCC算法在XML文档聚类效果上具有较高纯度和F-measure值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨厚群;何中市;雷景生;;基于划分的XML文档聚类研究[J];计算机科学;2008年03期
2 孙霞;程宏斌;;基于加权层次结构的XML文档相似度算法[J];武汉理工大学学报;2009年18期
3 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
4 潘有能;;XML文档自动聚类研究[J];情报学报;2006年02期
5 王桐;刘大昕;;一种基于改进粒子群优化的XML结构聚类方法[J];小型微型计算机系统;2007年05期
6 于亚新,王国仁,于戈;XBASE:一个语义文档数据库系统[J];小型微型计算机系统;2004年04期
7 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
8 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
9 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
10 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
11 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
12 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
13 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
14 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
15 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
16 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
17 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
18 李军怀,周明全,耿国华,张景西;XML在异构数据集成中的应用研究[J];计算机应用;2002年09期
19 文燕平,周宁;WWW中的XML数据管理研究[J];情报科学;2002年06期
20 尹桂秀;XML搜索引擎探微[J];图书情报工作;2002年03期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
2 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
5 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
6 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
7 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
8 张晨静;XML关键字过滤技术[D];复旦大学;2011年
9 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
10 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
2 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
3 滕海明;基于语义标记树的XML文档聚类研究[D];浙江大学;2011年
4 刘磊;基于权重边集比较法的XML语义聚类研究[D];山东大学;2010年
5 宫劲松;基于密度与模糊集的XML文档聚类[D];吉林大学;2012年
6 潘奇;基于语言模型的XML信息检索的研究与实现[D];内蒙古大学;2010年
7 李卓;基于编辑图的XML相似性研究[D];吉林大学;2011年
8 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
9 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
10 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978