收藏本站
《复旦大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

对结构化和半结构化数据的关键字搜索研究

许建军  
【摘要】: 关键字搜索是现今最为流行的信息发现方法,因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,他只需要使用若干关键字来表达自己的信息需求即可。在过去的十几年中,对非结构化数据的关键字搜索已经有过较多的研究,随着结构化数据(以关系数据为典型代表)和半结构化数据(以XML数据为典型代表)数量的日益增多,人们转而把目光投向对这两类数据的关键字搜索研究。本文在充分吸取前人研究成果的基础上,以关键字搜索的效率和有效性为侧重点,针对现有工作存在的问题进行了较为深入的研究,提出了创新性的解决方法,主要取得了以下研究成果: 1.对关系数据的关键字搜索,目前最流行的方法是基于搜索时连接的搜索方法,本文研究了其核心问题——模式图上连接表达式的搜索算法,提出了一种时间复杂度为多项式级延迟的搜索算法,并给出了它的正确性证明和时间复杂度分析。 2.本文提出了一种基于预连接的对关系数据的关键字搜索方法。本文分析了在关系数据库中引入关键字搜索之后可能引发的若干问题,提出将搜索结果定义为包含所有查询关键字的完全元组图(CTG),在此基础上设计了基于归并排序的高效的搜索算法,并给出了对搜索结果集的相关性排序方法。最后,对索引更新问题也给出了具体的解决方法。 3.本文提出了一种基于MIU的对XML数据的关键字搜索方法。本文分析了在XML关键字搜索中结果粒度精细化可能引发的若干问题,定义了最小信息单元(MIU)的概念,给出了对任意XML文档划分最小信息单元的方法,并提出以最小信息单元作为索引、搜索的最小粒度,设计了精简的索引结构和相应的搜索算法。 对于上述这些研究成果,本文给出了相应的实验数据,实验结果表明这些方法在关键字搜索的效率和有效性方面均有不同程度的提升,在科研领域和商业应用中都有着很好的应用前景。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

免费申请
【引证文献】
中国期刊全文数据库 前1条
1 白晓亮;;数据库关键词检索中候选元组集连接树生成算法的研究[J];电脑知识与技术;2011年16期
中国硕士学位论文全文数据库 前1条
1 李静;面向分析处理的关键字查询性能优化技术研究[D];山东大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 路燕,张亮,汪卫,张彪,施伯乐;一种新的XML文档编码机制[J];计算机研究与发展;2004年03期
中国博士学位论文全文数据库 前1条
1 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 张海涛;闾国年;张书亮;杜国庆;;GML数据整体索引方法研究[J];测绘科学;2009年02期
2 韩旭东;;一种基于非等概率更新的XML区间编码方法[J];电大理工;2008年02期
3 李笑妍;鲍溪清;唐红杰;;基于XISS的XML索引结构研究[J];大众科技;2007年05期
4 张硕,李建中,王宏志,何震瀛;基于扩展编码的在线XML文档加载机制[J];计算机研究与发展;2004年10期
5 韩希先;杨东华;李建中;;TKEP:海量数据上一种有效的Top-K查询处理算法[J];计算机学报;2010年08期
6 张海涛;杜国庆;闾国年;张书亮;;以Feature元素为单元的GML文档扩展区域编码ER-Code[J];计算机应用;2008年08期
7 曾志民;江弋;张东站;;CFE:一种基于连分数的动态XML编码[J];计算机与现代化;2009年03期
8 曲卫民,孙乐,孙玉芳;半结构化中文信息检索中查询结果相关度算法的研究[J];中文信息学报;2004年04期
9 覃遵跃;黄云;蔡国民;梁平元;;支持XML插入更新的编码方法[J];计算机应用;2012年12期
10 赵科军;王新军;刘洋;仇一泓;;基于结构化覆盖网的连续top-k联接查询算法[J];山东大学学报(工学版);2009年05期
中国重要会议论文全文数据库 前6条
1 张海涛;张书亮;姜杰;顾燕;;基于EKR+的GML整体索引[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
2 黄光安;肖璐;张亮;施伯乐;;一种基于文档编码的XML优化查询方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 张硕;李建中;王宏志;何震瀛;;基于扩展编码的在线XML文档加载机制[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 徐娟;李战怀;王彦龙;;基于更新代价的XML文档区间编码方案研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 宋劲柯;周媛莎;成伟华;张亮;施伯乐;;FLS:一种支持更新的图可达性标记算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 韩希先;杨东华;李建中;;TKEP:海量数据上一种有效的Top-K查询处理算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前4条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 梁平;面向产品生命周期数据的XML本源数据库的研究[D];合肥工业大学;2006年
3 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
4 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
中国硕士学位论文全文数据库 前10条
1 王慜;基于PAT代数的XML数据查询优化方法研究[D];兰州理工大学;2011年
2 牛娜;XML文档编码机制的研究[D];山东大学;2011年
3 孙树军;基于Oracle数据库的性能调整及优化技术研究[D];北京工业大学;2011年
4 贾楠;支持数据更新的XML结构连接的编码方案研究[D];中国石油大学;2011年
5 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
6 赖同庆;XML数据存储与检索研究[D];中南大学;2004年
7 李红梅;新制造环境下质量成本控制体系研究[D];中南大学;2003年
8 贾玉昌;多版本XML文档的查询处理[D];苏州大学;2005年
9 岳友友;XML查询技术研究[D];重庆大学;2006年
10 金朋纬;XML缓存模型XCatche的研究与实现[D];四川大学;2006年
【同被引文献】
中国期刊全文数据库 前4条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 杨光,张雷,艾波;数据仓库及联机分析处理技术[J];计算机工程与科学;2000年01期
3 张忠平,李荣,郭丽丽;联机分析处理的综述和分析[J];计算机应用研究;2003年08期
4 文继军,王珊;SEEKER:基于关键词的关系数据库信息检索[J];软件学报;2005年07期
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 朱彬;基于查询模板的关键词聚集查询研究[D];河北大学;2013年
【二级参考文献】
中国期刊全文数据库 前3条
1 庞引明,谈子敬,汪卫;XML的并发加锁协议[J];计算机研究与发展;2004年07期
2 谈子敬,庞引明,施伯乐;XML上的函数依赖推理[J];软件学报;2003年09期
3 刘国华,汪卫,张亮,施伯乐;基于有向图的对象范式生成算法[J];软件学报;2004年05期
【相似文献】
中国期刊全文数据库 前10条
1 Don't Cry;;几个有趣网站与Google也许无关[J];电脑爱好者(普及版);2007年04期
2 周勇生;;用好关键字搜索[J];电脑界(应用文萃);2000年09期
3 蒋凯;关佶红;;基于重启型随机游走模型的图上关键字搜索[J];计算机工程;2011年03期
4 裴建廷;王金才;;基于Asp技术的站内搜索[J];电脑学习;2006年04期
5 杨晓东;朱皓;杨卫东;施伯乐;;基于结构语义的XML关键字搜索[J];计算机应用与软件;2009年10期
6 王斌;杨晓春;王国仁;;关系数据库中支持语义的Top-K关键字搜索(英文)[J];软件学报;2008年09期
7 周靖;;浅介常用搜索引擎[J];科技资讯;2008年28期
8 张宏;魏杰;;基于Lucene的多媒体搜索工具的开发设计[J];现代计算机(专业版);2009年05期
9 黄庆凤;李之棠;张冶江;;基于改进的超立方体互连圈结构搜索算法[J];小型微型计算机系统;2009年08期
10 Tommy;搜索引擎技巧大放送[J];网络科技时代;2003年01期
中国重要会议论文全文数据库 前10条
1 朱皓;杨卫东;魏正军;施伯乐;;XML关键字搜索中一个高效的寻找XLCA的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 倪勇;;浅谈黄页分类索引与网络关键字索引之异同[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
3 孙健;;中国粉体技术网的推广策略研究[A];2006中国非金属矿工业大会暨第九届全国非金属矿加工应用技术交流会论文专辑[C];2006年
4 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 赵振南;栾成军;董允强;;灰色关联法在服务发现模型中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 魏定国;;半结构化数据库中的交互式查询和搜索[A];第十五届全国数据库学术会议论文集[C];1998年
7 杨孙超;;县级公共图书馆网站建设的思考[A];福建省图书馆学会2006年学术年会论文集[C];2006年
8 郑仕辉;何奇;张龙;梁宇奇;周傲英;;XML文档的相似测度研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 万常选;林大海;;基于X-RESTORE有效地处理XPath路径表达式[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 雨 青;关键字搜索的漏网之鱼[N];中国电脑教育报;2005年
2 晓民;用好关键字搜索[N];中国消费者报;2001年
3 美润/文;Lycos采用新一代搜索引擎[N];财经时报;2001年
4 记者 林雨;关键字广告市场呼吁规范[N];民营经济报;2006年
5 ;调查显示:关键字搜索最受网民青睐[N];通信信息报;2004年
6 遥歌;联合9家搜索引擎公司 DoCoMo推出关键字搜索服务[N];人民邮电;2006年
7 颜勇;MP3七个最不实用功能[N];中国消费者报;2007年
8 GG;“八佰搜”打造平民致富经[N];中国经营报;2006年
9 孙琎;微软弃购雅虎 谷歌成最大赢家[N];第一财经日报;2008年
10 dhssha;一次中招的经历[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前10条
1 方黎明;带关键字搜索公钥加密的研究[D];南京航空航天大学;2012年
2 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
3 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
4 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
5 黄庆凤;结构化P2P网络性能分析与搜索算法研究[D];华中科技大学;2008年
6 杨舰;对等网络有效搜索机制研究[D];复旦大学;2004年
7 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
8 朱凡微;大规模异构Web的方面搜索研究[D];浙江大学;2012年
9 马文明;基于局部网络信息的贪婪式P2P资源定位技术研究[D];北京邮电大学;2013年
10 陈李钢;基于赞助搜索的关键字广告最优策略研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋凯;图上的关键字搜索算法[D];复旦大学;2010年
2 刘朝锋;基于实体的XML关键字搜索问题研究[D];山东大学;2012年
3 翟建昭;面向关系数据库的语义关键字搜索研究[D];东北大学;2011年
4 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
5 王梦凡;基于布鲁姆过滤器的P2P多关键字搜索技术研究[D];湖南大学;2012年
6 孟庆庆;计算机证据搜索与分析技术研究[D];北京化工大学;2010年
7 姚燕娜;关键字搜索与推荐算法研究及其应用[D];山东师范大学;2014年
8 朱皓;Ontology驱动的异构数据源上的关键字搜索[D];复旦大学;2009年
9 夏轩;众评网的设计与实现[D];华南理工大学;2013年
10 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026