收藏本站
《复旦大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

对结构化和半结构化数据的关键字搜索研究

许建军  
【摘要】: 关键字搜索是现今最为流行的信息发现方法,因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,他只需要使用若干关键字来表达自己的信息需求即可。在过去的十几年中,对非结构化数据的关键字搜索已经有过较多的研究,随着结构化数据(以关系数据为典型代表)和半结构化数据(以XML数据为典型代表)数量的日益增多,人们转而把目光投向对这两类数据的关键字搜索研究。本文在充分吸取前人研究成果的基础上,以关键字搜索的效率和有效性为侧重点,针对现有工作存在的问题进行了较为深入的研究,提出了创新性的解决方法,主要取得了以下研究成果: 1.对关系数据的关键字搜索,目前最流行的方法是基于搜索时连接的搜索方法,本文研究了其核心问题——模式图上连接表达式的搜索算法,提出了一种时间复杂度为多项式级延迟的搜索算法,并给出了它的正确性证明和时间复杂度分析。 2.本文提出了一种基于预连接的对关系数据的关键字搜索方法。本文分析了在关系数据库中引入关键字搜索之后可能引发的若干问题,提出将搜索结果定义为包含所有查询关键字的完全元组图(CTG),在此基础上设计了基于归并排序的高效的搜索算法,并给出了对搜索结果集的相关性排序方法。最后,对索引更新问题也给出了具体的解决方法。 3.本文提出了一种基于MIU的对XML数据的关键字搜索方法。本文分析了在XML关键字搜索中结果粒度精细化可能引发的若干问题,定义了最小信息单元(MIU)的概念,给出了对任意XML文档划分最小信息单元的方法,并提出以最小信息单元作为索引、搜索的最小粒度,设计了精简的索引结构和相应的搜索算法。 对于上述这些研究成果,本文给出了相应的实验数据,实验结果表明这些方法在关键字搜索的效率和有效性方面均有不同程度的提升,在科研领域和商业应用中都有着很好的应用前景。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 白晓亮;;数据库关键词检索中候选元组集连接树生成算法的研究[J];电脑知识与技术;2011年16期
中国硕士学位论文全文数据库 前1条
1 李静;面向分析处理的关键字查询性能优化技术研究[D];山东大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 路燕,张亮,汪卫,张彪,施伯乐;一种新的XML文档编码机制[J];计算机研究与发展;2004年03期
中国博士学位论文全文数据库 前1条
1 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 张海涛;闾国年;张书亮;杜国庆;;GML数据整体索引方法研究[J];测绘科学;2009年02期
2 韩旭东;;一种基于非等概率更新的XML区间编码方法[J];电大理工;2008年02期
3 李笑妍;鲍溪清;唐红杰;;基于XISS的XML索引结构研究[J];大众科技;2007年05期
4 张硕,李建中,王宏志,何震瀛;基于扩展编码的在线XML文档加载机制[J];计算机研究与发展;2004年10期
5 韩希先;杨东华;李建中;;TKEP:海量数据上一种有效的Top-K查询处理算法[J];计算机学报;2010年08期
6 张海涛;杜国庆;闾国年;张书亮;;以Feature元素为单元的GML文档扩展区域编码ER-Code[J];计算机应用;2008年08期
7 曾志民;江弋;张东站;;CFE:一种基于连分数的动态XML编码[J];计算机与现代化;2009年03期
8 曲卫民,孙乐,孙玉芳;半结构化中文信息检索中查询结果相关度算法的研究[J];中文信息学报;2004年04期
9 覃遵跃;黄云;蔡国民;梁平元;;支持XML插入更新的编码方法[J];计算机应用;2012年12期
10 赵科军;王新军;刘洋;仇一泓;;基于结构化覆盖网的连续top-k联接查询算法[J];山东大学学报(工学版);2009年05期
中国重要会议论文全文数据库 前6条
1 张海涛;张书亮;姜杰;顾燕;;基于EKR+的GML整体索引[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
2 黄光安;肖璐;张亮;施伯乐;;一种基于文档编码的XML优化查询方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 张硕;李建中;王宏志;何震瀛;;基于扩展编码的在线XML文档加载机制[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 徐娟;李战怀;王彦龙;;基于更新代价的XML文档区间编码方案研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 宋劲柯;周媛莎;成伟华;张亮;施伯乐;;FLS:一种支持更新的图可达性标记算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 韩希先;杨东华;李建中;;TKEP:海量数据上一种有效的Top-K查询处理算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前4条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 梁平;面向产品生命周期数据的XML本源数据库的研究[D];合肥工业大学;2006年
3 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
4 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
中国硕士学位论文全文数据库 前10条
1 王慜;基于PAT代数的XML数据查询优化方法研究[D];兰州理工大学;2011年
2 牛娜;XML文档编码机制的研究[D];山东大学;2011年
3 孙树军;基于Oracle数据库的性能调整及优化技术研究[D];北京工业大学;2011年
4 贾楠;支持数据更新的XML结构连接的编码方案研究[D];中国石油大学;2011年
5 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
6 赖同庆;XML数据存储与检索研究[D];中南大学;2004年
7 李红梅;新制造环境下质量成本控制体系研究[D];中南大学;2003年
8 贾玉昌;多版本XML文档的查询处理[D];苏州大学;2005年
9 岳友友;XML查询技术研究[D];重庆大学;2006年
10 金朋纬;XML缓存模型XCatche的研究与实现[D];四川大学;2006年
【同被引文献】
中国期刊全文数据库 前4条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 杨光,张雷,艾波;数据仓库及联机分析处理技术[J];计算机工程与科学;2000年01期
3 张忠平,李荣,郭丽丽;联机分析处理的综述和分析[J];计算机应用研究;2003年08期
4 文继军,王珊;SEEKER:基于关键词的关系数据库信息检索[J];软件学报;2005年07期
【二级参考文献】
中国期刊全文数据库 前3条
1 庞引明,谈子敬,汪卫;XML的并发加锁协议[J];计算机研究与发展;2004年07期
2 谈子敬,庞引明,施伯乐;XML上的函数依赖推理[J];软件学报;2003年09期
3 刘国华,汪卫,张亮,施伯乐;基于有向图的对象范式生成算法[J];软件学报;2004年05期
【相似文献】
中国期刊全文数据库 前10条
1 文必龙;王瑞;姚建蓬;黄俊莲;;一种Excel数据到结构化数据的转换方法[J];佳木斯大学学报(自然科学版);2006年03期
2 王晓东;江元;徐超;;XML技术在Web数据挖掘中的应用[J];中国科技信息;2008年18期
3 庄毅,徐海力;半结构化数据与关系数据的比较研究[J];计算机与现代化;2004年01期
4 韩京宇;徐立臻;董逸生;;Web数据仓库研究综述[J];计算机科学;2004年11期
5 张荣富;;XML在Web数据挖掘技术中的应用相关问题探索[J];现代经济信息;2010年02期
6 严亚兰;基于Web环境的半结构化数据模型研究[J];中国图书馆学报;2003年04期
7 色菲;王佳;潘超;;基于XML描述的WEB信息抽取技术研究[J];科技信息(科学教研);2007年34期
8 许斗,陈恩红;XML的半结构化数据表示方法及其在医学文档处理中的应用[J];计算机工程;2002年01期
9 邹国华;;对XML存取的研究与实现[J];科技广场;2005年12期
10 沈艺;基于XML的信息存储与检索[J];计算机系统应用;2002年08期
中国重要会议论文全文数据库 前10条
1 朱皓;杨卫东;魏正军;施伯乐;;XML关键字搜索中一个高效的寻找XLCA的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 岳昆;吴益忠;王晓玲;周傲英;;基于转换技术的XML文档规范化及更新[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 郭瑞强;苏仕云;乐嘉锦;;XML数据的存储模式研究[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 张晓琳;谭跃生;张军;王国仁;;面向对象XML查询代数研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 郑仕辉;何奇;张龙;梁宇奇;周傲英;;XML文档的相似测度研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 李然;张云霞;汪卫;施伯乐;;改进的贪心算法在数字图书馆XML元数据存储中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 雨 青;关键字搜索的漏网之鱼[N];中国电脑教育报;2005年
2 秦林;《XML完全探索》[N];中华读书报;2001年
3 晓民;用好关键字搜索[N];中国消费者报;2001年
4 美润/文;Lycos采用新一代搜索引擎[N];财经时报;2001年
5 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
6 记者 林雨;关键字广告市场呼吁规范[N];民营经济报;2006年
7 ;分化并不能阻止XML发展[N];中国计算机报;2000年
8 ;为XML标准定标准[N];中国计算机报;2001年
9 ;调查显示:关键字搜索最受网民青睐[N];通信信息报;2004年
10 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
中国博士学位论文全文数据库 前10条
1 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
2 方黎明;带关键字搜索公钥加密的研究[D];南京航空航天大学;2012年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
5 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
6 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
7 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
8 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
9 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
10 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 任辉;XML数据到关系数据映射的研究[D];安徽理工大学;2006年
2 王瑞;半结构化数据集成技术研究[D];大庆石油学院;2007年
3 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
4 黄蓓蓓;基于XML的多媒体数据转换存储研究[D];暨南大学;2006年
5 陈继明;基于正则路径表达式的XML查询优化技术的研究与实现[D];江苏大学;2005年
6 周超;半结构化XML数据与关系数据库之间转换的应用与研究[D];武汉理工大学;2006年
7 刘朝锋;基于实体的XML关键字搜索问题研究[D];山东大学;2012年
8 李姝;基于XML的Web数据挖掘研究[D];大连海事大学;2007年
9 陈炳超;基于XML的WEB数据挖掘研究[D];暨南大学;2008年
10 廖鹏;基于XML的Web数据挖掘及关联算法的研究[D];西南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026