收藏本站
《吉林大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

一种新的动态XML文档聚类方法

张人  
【摘要】:信息的迅猛发展促使Web上的数据剧烈的提高,怎样从大量的Web数据中细致准确的获取我们想要的信息成为一个热门的研究和课题。Web数据挖掘就是从Web数据中获得内在的、有价值的信息和模块的过程,特征、分类、聚类的选择等作为Web数据挖掘的主要科研技术业已得到了十足的发展。聚类研究在Web数据挖掘中具有极其特定的地位,聚类是什么呢?就是参照一种相似性的度量,依据准确的定律使一个对象集合成几类,让一类对象之间无限的相似,让有差别的对象之间无限的相异。聚类可以说来自于各个领域,包括实际生活中的事例,也包括理论探索中的研究,更加包含在各种学科之中,如数学,统计学,生物学,以及计算机科学等。聚类研究这个Web数据挖掘的前期处理阶段可以依靠分类数据来增加其效率和精确率。 Web页面大多以HTML的形式得以体现,而随着Web数据的多样和复杂,HTML文档却已不能满足数据处理和数据交换的需求。 XML这个概念是由W3C组织提出的,因其开放、灵活和自描述性的特点,渐渐成为Web中重要的数据格式和交换准则。对XML文档的研究,需要许多相关的概念和结构定义,从而得到相关的表达和计算方法。XML文档在计算进程中存在很多基本不发生改变的结构,而这种结构又常常被大量使用,在此基础上本文提出了冰冻结构的表示方法,用一组存在冰冻结构的二维XML文档向量模型模拟一个动态的XML文档,以加权Jaccard系数为相似性度量,使用层次聚类的方法,对在XML文档更新过程中基本不发生改变的冰冻结构进行聚类,从而实现XML的文档的聚类分析。最后通过实验进行验证得出,以冰冻结构为特征项的聚类研究是有意义的,能够从聚类结果中发现大量有用的有用信息数据。这样我们就能够通过对这种结构的研聚类分析来达到对XML文档的深入研究,从而可以从另一个角度上在各个领域的实际工作中加以应用和探索。 首先作者对XML相关规范进行了大量数据分析,得出了现行XML文档聚类分析所用的算法的优缺点。针对各种算法的优缺点,尝试选择一种或者几种作为聚类分析的算法方案。然后着重分析XML文档聚类研究的实质性问题——相似性度量,研究了传统编辑距离的方法和使用边集的XML相似性度量的方法,在研究了空间向量模型的过程中做出路径和标签统一的XML向量模型,而向量特征权值则是依据树的层次结构,以此来表示XML中的元素嵌套的语义,从而利用加权Jaccard系数的方法来计算XML文档的相似性系数。在计算相似度的过程中,编辑距离的方法以及边集的方法所得出的结果是不如此种方法更能区分出来的。本文提出了冰冻结构的定义,给出了冰冻结构的主要问题和度量方法。最后我们在真实文档集和人工文档集上进行了测试,试验结果表明本文使用冰冻结构对于大文本聚类有着明显的优势。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前2条
1 赵艳厂,谢帆,宋俊德;一种新的聚类算法:等密度线算法[J];北京邮电大学学报;2002年02期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
【共引文献】
中国期刊全文数据库 前10条
1 赵艳厂,宋梅,谢帆,宋俊德;用于不同密度聚类的多阶段等密度线算法[J];北京邮电大学学报;2003年02期
2 景晓军,李剑锋,张苏慧,杨义先;图像智能化的目标检测技术(Ⅲ)——优化聚类与特征提取[J];北京邮电大学学报;2003年S1期
3 郑岩,黄荣怀,战晓苏,周春光;基于遗传算法的动态模糊聚类[J];北京邮电大学学报;2005年01期
4 李巍;孙涛;叶苑苑;李雄飞;李楠;;基于冰冻结构的XML文档聚类研究[J];吉林大学学报(信息科学版);2009年06期
5 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
6 张平;党选举;陈皓;杨文雷;;基于熵特征优选分组聚类的相似重复记录检测[J];传感器与微系统;2011年11期
7 牛强;夏士雄;周勇;张磊;;改进的模糊C-均值聚类方法[J];电子科技大学学报;2007年06期
8 蔡江辉,张华煜;离群数据挖掘方法研究[J];电脑开发与应用;2005年12期
9 于洪涛;黄海;冯晓磊;;一种基于聚类技术的安全传真服务器设计方法[J];电子技术应用;2010年12期
10 周永权,焦李成;高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J];电子学报;2004年08期
中国重要会议论文全文数据库 前6条
1 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
4 康卫鲜;叶德谦;;基于CURE的聚类算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 林泽桢;白雪;;基于密度流的聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 皮德常;CIMS数据库中数据挖掘关键技术的研究[D];南京航空航天大学;2002年
3 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
4 王立宏;信息系统的约简与粒度分析及其在数据挖掘中的应用[D];上海大学;2004年
5 季民;海洋渔业GIS时空数据组织与分析[D];山东科技大学;2004年
6 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
7 单世民;基于网格和密度的数据流聚类方法研究[D];大连理工大学;2006年
8 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
9 赵姝;计算智能及其在气象信息分析中的应用[D];安徽大学;2007年
10 杜尧;面向大规模定制生产的智能成组技术研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
2 王丹丹;基于数据挖掘的煤矿瓦斯事故预测方法研究[D];辽宁工程技术大学;2010年
3 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
4 刘巍;基于聚类的孤立点发现技术研究及其在审计中的应用[D];中国海洋大学;2010年
5 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
6 吴迪;高维空间中基于空间划分的离群点挖掘算法研究[D];河北工程大学;2010年
7 杨建红;基于密度的聚类算法研究[D];长春工业大学;2010年
8 刘小龙;K-Means聚类算法在犯罪数据挖掘中的应用[D];东华大学;2011年
9 王小姣;聚类分析及其在Web日志挖掘中的应用研究[D];山东师范大学;2011年
10 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
2 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
3 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
4 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
5 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
6 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
7 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
8 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
9 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
10 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
6 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
2 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
3 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
4 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
5 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
6 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
7 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
8 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
9 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
10 沈剑沧;XML查询方法研究[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026