收藏本站
《山东大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档结构相似度研究及在文档聚类中应用

李丽娟  
【摘要】: 近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极大的挑战。 相似度的计算是文档检索、挖掘和文本聚类的基础,因此对相似度算法进行研究具有非常重要的意义,可以说文档相似度的计算直接影响了最后的检索结果。XML语言具有“自描述”、“树形结构”、“结构嵌套”等特点受到了业界的普遍欢迎和支持,越来越多的应用领域已经将其作为主要的存储格式和传输媒体。因此如何计算XML文档的相似度特别是它的结构相似度是目前研究的主要任务。 通过对XML文档的不断深入研究,发现传统的相似度的计算方法已不能满足计算元素的嵌套结构的语义要求。用树的编辑距离来计算文档的相似度时,如果树描述全部结构信息,这样树的结构会非常庞大,并且树编辑距离方法对文档中元素重复和元素可选问题不能有效处理。另一方面,在因特网上通过搜索引擎检索信息时,出来的信息成千上万,而人们通常只关心检索的前20名,如何提高前20项(或前n项)与用户相关项的个数,即提高检索结果的准确性是研究的另外一个难题。 为了解决上述问题,本论文,在文档对象树的基础上,提出了一种基于树路径的XML文档描述模型,并给出了相应的相似度算法,将问题有效地简化,从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。 首先,本文提出了一种基于树路径模型的相似度算法,来实现对XML文档之间相似度的计算。该算法简化了XML文档描述,从而降低了解决问题的复杂度。此算法在文档类别数较少,且不同类别的文档的结构相差较大时,有很好的聚类效果。 其次,在此算法的基础上,针对它存在的一些问题如:路径只是包含父/子这种祖先与子孙的关系,忽略了兄弟结点之间关系;没有考虑各路径的权重;并且在比较两路径的相似度时用的是路径的完全匹配等,本文对此一一进行了改进,并提出了改进后的相似度的计算方法。改进后的算法计算出来的相似度更准确,处理了文档中元素重复问题,使得计算结果也更符合人的直观理解。 最后本文进行了实验测试,并且在计算文档相似度的基础上对文档进行了聚类,实验结果显示与其它算法相比,本文的方法更显著地提高了识别具有相同结构的XML文档的能力,在此基础上,通过对文档进行聚类,使具有相同特征或相似度值很大的文档归为一类,很好提高检索结果的准确性。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP312.2

【引证文献】
中国硕士学位论文全文数据库 前3条
1 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
2 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年
3 张梦笑;基于LDA模型的观点聚类研究[D];山西大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
2 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
3 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
4 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
5 陈浩,何婷婷,姬东鸿;基于k-means聚类的无导词义消歧[J];中文信息学报;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
2 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
3 王新军;卿华;姚娇艳;;流水线加工调度问题的神经网络算法[J];兵工自动化;2011年10期
4 陈春咏;史金飞;;基于XML的C~4ISR系统信息融合的研究[J];兵工学报;2007年09期
5 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
6 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
7 陶兰;;Kohonen神经网络模型在柑桔区域规划专家系统中的应用[J];北京农业工程大学学报;1993年01期
8 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
9 杜大鹏;穆志纯;陈静;方新;;一种用于模拟汉字认知过程的多层自组织神经网络[J];北京科技大学学报;2007年01期
10 许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期
中国重要会议论文全文数据库 前10条
1 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
2 陆斌;骆志刚;苏光龙;丁凡;;RNA序列结构比对算法综述[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
5 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
6 ;A hybrid of fuzzy-link clustering and classification for seismic data[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
7 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
5 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 吕琳;天然气水合物(地球物理属性)的神经网络识别方法及软件开发[D];吉林大学;2011年
8 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
9 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
10 梁涛;批处理过程生产调度自组织优化方法[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
2 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
3 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
4 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
5 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
6 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
7 何昌钦;图像检索方法研究[D];大连理工大学;2010年
8 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
9 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
10 王冬秀;基于衰减窗口与剪枝链表树的高维数据流聚类算法研究[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
2 李新延,李德仁;DBSCAN空间聚类算法及其在城市规划中的应用[J];测绘科学;2005年03期
3 张梦笑;王素格;王智强;;基于LDA特征选择的文本聚类[J];电脑开发与应用;2012年01期
4 乌统昱,庄亚娜;用灰色聚类法评定地震烈度[J];地震学报;1990年02期
5 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
6 王桐;刘大昕;;一种新的混合XML文档聚类方法[J];哈尔滨工程大学学报;2007年06期
7 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
8 傅珊珊;吴扬扬;;基于频繁结构的XML文档聚类[J];计算机工程与应用;2008年09期
9 袁伯秋;周一民;李林;;垃圾邮件处理中LDA特征选择方法[J];计算机工程与应用;2009年25期
10 唐菁;沈记全;杨炳儒;;基于Web的文本挖掘系统的研究与实现[J];计算机科学;2003年01期
中国博士学位论文全文数据库 前3条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前9条
1 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
2 黄丽娟;动态聚类新方法及最优聚类算法研究[D];扬州大学;2006年
3 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
4 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
5 徐仰彬;基于SOM的文本聚类及其在搜索结果中的应用[D];西安电子科技大学;2007年
6 王玉伟;面向用户兴趣的web文档聚类研究[D];中国石油大学;2008年
7 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年
8 赵斌;Web挖掘中的XML文档聚类研究[D];山东师范大学;2009年
9 高娟;基于K-means算法的文本聚类的研究与实现[D];江西理工大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 胡琼芳;曾建勋;;基于多共现的文献相关度判定研究[J];情报理论与实践;2010年08期
中国硕士学位论文全文数据库 前4条
1 刘旭;基于互联网数据的话题发现及追踪技术研究与实现[D];复旦大学;2010年
2 王瑷珲;留学生对中国文化知识的态度与需求[D];北京大学;2012年
3 张梦笑;基于LDA模型的观点聚类研究[D];山西大学;2012年
4 王金艳;基于知识地图的应急决策专家隐性知识可视化[D];燕山大学;2012年
【二级参考文献】
中国期刊全文数据库 前9条
1 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
2 鲁松,白硕,黄雄,张健;基于向量空间模型的有导词义消歧[J];计算机研究与发展;2001年06期
3 林鸿飞;战学刚;姚天顺;;基于概念扩充的中文文本过滤模型[J];计算机科学;2000年02期
4 李飞;薛彬;黄亚楼;;初始中心优化的K-Means聚类算法[J];计算机科学;2002年07期
5 王磊,潘进,焦李成;免疫规划[J];计算机学报;2000年08期
6 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
7 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
8 鲁松,白硕,黄雄;基于向量空间模型中义项词语的无导词义消歧[J];软件学报;2002年06期
9 黄昌宁,李涓子;词义排歧的一种语言模型[J];语言文字应用;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期
2 范伟,宣国荣;VR系统三维建模中细节水平分割的分析[J];计算机工程;1998年01期
3 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
4 孙宏伟,田新广,李学春,张尔扬;一种改进的IDS异常检测模型[J];计算机学报;2003年11期
5 贺晓,刘景宁,李淑霞;基于灰色关联理论的案例推理在故障智能诊断系统中的应用[J];中国机械工程;2004年22期
6 田捷,何余良,陈宏,杨鑫;一种基于相似度聚类方法的指纹识别算法[J];中国科学E辑;2005年02期
7 李志东,云晓春,杨武,辛毅;基于相似通信特征扩散分析的未知蠕虫检测[J];计算机工程与应用;2005年19期
8 范自柱;;一种基于曲面求交的图像识别方法[J];计算机与信息技术;2005年03期
9 张树江;邢慧;颜景龙;;一种基于相似度的子弹识别方法[J];广西师范大学学报(自然科学版);2006年04期
10 李珊;何建敏;厉浩;;基于本体和加权互信息的专业知识检索[J];情报学报;2006年05期
中国重要会议论文全文数据库 前10条
1 李娆娆;雷沛霖;黄兰岚;原思通;刘营;;芫花药材高效液相指纹图谱研究[A];中华中医药学会四大怀药与地道药材研究论坛暨中药炮制分会第二届第五次学术会与第三届会员代表大会论文集[C];2007年
2 张虎;郭玉翠;宫尚宝;;移动Ad-hoc网络中基于第三方观察机制的信任管理研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
4 汤丽华;赵吴静;金菊良;张明;;基于熵的水质综合评价的相似插值模型[A];第八届中国管理科学学术年会论文集[C];2006年
5 王娟;;一种基于粗糙集理论的操作风险判别方法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
6 刘晓林;郁滨;;基于相似度的遗传算法模式理论研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
7 金保华;高湘飞;柳雪环;张磊;;基于XML框架与CBR智能预案管理的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
8 王超;许方;;一种基于奇异值分解的印刷体数字识别算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
9 麦智毅;杨春玲;;基于结构相似度的H.264帧内预测快速算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
10 李增扬;李兵;何克清;;本体中复杂网络特性的发现[A];2006全国复杂网络学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
4 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
5 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
6 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
7 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
8 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
9 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 天相投顾 王聃聃;投资同质化 基金繁荣背后的痛[N];证券时报;2007年
中国博士学位论文全文数据库 前10条
1 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年
2 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
3 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
4 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
5 游扬声;一般分布模式下GIS位置数据的不确定性研究[D];武汉大学;2005年
6 孙平;高科技品牌延伸的评价模型与消费者评价实证研究[D];山东大学;2008年
7 刘晓东;面向无线传感器网络数据传输与查询的节能算法与理论研究[D];中国海洋大学;2009年
8 张旭秀;盲源分离及其在脑电信号处理中应用的研究[D];大连理工大学;2006年
9 刘建华;粒子群算法的基本理论及其改进研究[D];中南大学;2009年
10 马群;安宫牛黄丸生产过程质量评价方法研究[D];北京中医药大学;2007年
中国硕士学位论文全文数据库 前10条
1 伍星宇;基于相似度的社区发现算法研究[D];华中科技大学;2012年
2 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
3 闵江;基于语义网的本体相似度算法研究[D];华东交通大学;2011年
4 裴运亮;基于切词和语义的中文相似度研究与应用[D];电子科技大学;2011年
5 乔善磊;中药色谱指纹图谱相似度评价研究[D];第二军医大学;2004年
6 严东宾;基于MULTI-TASK LASSO的英文词对间关系相似度算法[D];华东师范大学;2013年
7 方平;基于好友相似度的在线社会网络社区发现算法研究[D];华中科技大学;2013年
8 沈幸峰;基于网络评论的话题挖掘[D];杭州电子科技大学;2014年
9 毛治佳;基于属性相似度的报警关联系统的研究与实现[D];西安电子科技大学;2011年
10 唐亚伟;公式相似度算法及其在论文查重中的应用研究[D];渤海大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026