收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于检索结果聚类的XML伪反馈技术研究

钟敏娟  
【摘要】:随着XML应用的不断扩展,XML已经成为互联网上信息描述和信息交换的事实标准。XML数据是一种半结构化数据,它的特点是拥有不规则、可变的结构。作为一种新兴的数据格式,如何对它进行有效查询和检索,近几年来一直是数据库和信息检索领域关注的前沿研究课题。 目前,在XML文档的精确查询方面取得了很多可喜的研究成果,而基于模糊查询的XML信息检索的研究却不尽人意,研究成果还不成熟。信息检索中查询质量不高的一个很重要原因就是用户往往不能准确地描述自己的查询意图,对XML文档而言,查询表达式不仅包含关键词还要包含结构信息,这对普通用户来说更具难度。在此背景下,引入反馈机制来帮助用户形成准确的查询表达式对XML信息检索具有重要意义。 伪反馈不需要用户的参与而受到普遍关注,多次TREC会议表明它是一种简单且有效的查询扩展技术。它假定初始检索结果的前N篇文档是相关的,并以此进行查询扩展。本文围绕伪反馈中存在的“查询主题漂移”现象展开研究,针对用户提交的初始查询,进行有效的查询扩展,力图避免“查询主题漂移”现象,最终提高XML检索性能。 在伪反馈中,有两个重要的方面需要解决: (1)如何确定相关文档集。传统伪反馈是采用初始检索结果的前N篇文档作为伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取扩展信息显然会产生主题漂移,造成性能下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免“查询漂移”的首要问题。 (2)在伪相关文档集里如何挑选扩展信息。对XML文档而言,扩展信息不仅要有关键词项,而且还包括结构信息。 围绕这两大方面,本文具体研究了以下内容: (1)研究了XML文档的检索结果聚类。本文主要是面向文本为中心的XML数据环境,因此,聚类过程包含两大方面,其一是如何充分结合XML文档的特征,定义适合XML数据的相似性度量;其二是采用何种聚类算法实现聚类。本文首先以不同的检索结果返回粒度对相似性度量进行了研究:在以文档为返回粒度的检索结果聚类中,提出了内容和结构语义相融合的相似性度量方法CASS(ContentAnd Structure Semantics);在以元素节点为返回粒度的研究中,针对CASS的局限性在该度量方法的基础上进一步提出了基于语义的内容和结构语义相融合的相似性度量方法LSI-CASS(Latent Semantic Indexing based Content And Structure Semantics)。同时,本文还对聚类中存在的最优划分问题也进行了探索,结合文本间的最小相似度,提出了基于优化初始中心点和评价函数的k-medoid聚类算法,从而自动获取了最优的簇数。 (2)基于检索结果聚类的文档排序模型研究。文档聚类之后,与用户查询相关的文档(或文档片段)在一定程度上聚簇在了一起,接下来的关键问题是如何把与用户查询相关的簇号挑选出来以及在挑选出来的相关簇中如何把相关文档(或文档片段)进一步查找出来。针对文档与元素节点两种不同的返回粒度,本文分别研究了候选簇的排序模型以及候选簇中文档(或文档片段)的排序模型。首先利用簇中心特征,提出了基于簇中心的候选簇排序模型。其次,结合XML文档的结构特性,在候选簇的文档(或文档片段)排序模型中提出了一系列的排序特征,并以此作为文档(或文档片段)排序的依据。通过两种排序模型有效地形成了较高质量的XML伪相关文档(或文档片段)集。 (3)XML查询扩展研究。本文主要对面向CO(Content Only)查询的XML查询扩展进行研究,提出了基于伪反馈的XML查询扩展方法。在上述XML伪相关文档集里,一方面对词项扩展进行了研究,基于带结构的词项权值计算方法对查询词进行了扩展,有效地提高了检索系统的性能;与此同时,另一方面利用XML文档的树状模型,在扩展词项的基础上基于最大标签语义权重的结构扩展方法有效获得了完整的“内容+结构”的查询扩展表达式。 本文的创新性工作体现在: (1)提出了基于检索结果聚类指导下的XML伪反馈技术路线。目前国内外基于伪反馈的XML信息检索的研究成果极少,针对XML检索结果聚类的研究还不多见,本文提出的基于检索结果聚类的XML伪反馈能充分利用聚类的相应特征来有效地解决传统伪反馈中扩展源质量不高的问题。首先在候选簇的排序模型中,文中充分利用簇标签特征,基于均衡化权值获得了较为合理的候选簇,其次,区别于传统信息检索排序机制,在候选簇的文档排序模型里充分考虑了聚类所带来的相应特征,比如文档与簇的相似度、簇的排名等因素,对文档进行了有效排序。实验数据表明该思路是行之有效的,检索结果聚类能够帮助获得较高质量的XML伪相关文档集,有效地确保了扩展源的质量。 (2)针对XML文档聚类,提出了带结构语义的扩展向量空间模型,并在此基础上,提出了度量文档之间相似性的内容与结构语义相融合的相似性度量方法CASS。一方面,该方法采用内容为主、结构为辅的思路将XML文档的内容特征与结构特征有机地融合在一起,这种融合区别于现有的XML文档相似性度量方法。现有的XML文档相似性度量方法虽然也考虑了文档的内容特征和结构特征,但是却完全割裂了彼此之间的联系,尤其在同构数据集里无法获得较好的效果。另一方面,相似性度量方法中,词项的权重计算不仅从传统的词项频度出发,还考虑了XML文档的标签语义信息、标签的层次信息等反映结构语义的特征,这些特征有效地融合了XML的内容和结构双重特性,避免了当前许多同类的XML文档相似性度量方法需要用户事先指定参数的局限性,因此具有更好的灵活性和普遍性。 (3)首次以元素节点为返回粒度对XML检索结果聚类进行了研究,提出了基于词项语义的内容与结构语义相融合的相似性度量方法LSI-CASS,该方法区别于以往XML文档间的相似性度量方法,一方面完全将XML文档的内容与结构特征融合在一起,另一方面还充分考虑了词项间的语义关系,利用隐含语义索引技术获取了文档内容的核心“概念”。同构数据集上的相关实验数据表明,LSI-CASS方法能获得比其他度量方法更好的聚类质量。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宋玲,马军,莫正波,秦茂玲;基于XML的智能信息检索与聚类研究[J];山东建筑工程学院学报;2004年02期
2 李燕风;Web访问信息挖掘系统[J];计算机工程;2003年15期
3 于亚新,王国仁,于戈;XBASE:一个语义文档数据库系统[J];小型微型计算机系统;2004年04期
4 李小华;;一种带反馈的XML信息检索系统设计与研究[J];厦门理工学院学报;2006年01期
5 段红英;;Web数据挖掘技术在电子商务中的应用[J];陇东学院学报;2009年02期
6 王楠;;XML在Web数据挖掘中的应用[J];科技创新导报;2009年07期
7 杨晓东;朱皓;杨卫东;施伯乐;;基于结构语义的XML关键字搜索[J];计算机应用与软件;2009年10期
8 汤娜;陈罗武;刘瑞君;汤庸;;双时态XML查询中now语义失真的研究与扩展[J];计算机科学;2008年06期
9 陈晓金;王兵;;智能信息检索扩展方法研究[J];图书情报知识;2008年04期
10 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期
11 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
12 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
13 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
14 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
15 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
16 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
17 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
18 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
19 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
20 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
中国重要会议论文全文数据库 前10条
1 温馨;王鹏;李少亮;郭文琪;陈群;娄颖;;基于关键字的XML信息检索反馈技术的研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 吴京慧;余珊珊;王明文;;基于用户日志聚类的查询扩展模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 潘志明;郑骏;钱卫宁;周傲英;;构造XML相似相关结构库的一种有效方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 韩哲;王宏志;高宏;李建中;骆吉洲;;基于聚簇的XML文档近似连接方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 王宏志;李建中;何震瀛;;一种压缩XML数据仓库的存储策略[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
10 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
2 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
3 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
4 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
5 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
6 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
7 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
8 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
9 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
10 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
中国硕士学位论文全文数据库 前10条
1 尹鹏;一种基于XML的信息搜索技术[D];东北师范大学;2006年
2 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
3 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
4 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
6 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
7 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
8 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
9 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
10 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
6 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
7 记者 王鹏飞;专家组昨日向我市反馈技术评估情况[N];咸阳日报;2010年
8 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
9 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
10 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978