收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

对结构化和半结构化数据的关键字搜索研究

许建军  
【摘要】: 关键字搜索是现今最为流行的信息发现方法,因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,他只需要使用若干关键字来表达自己的信息需求即可。在过去的十几年中,对非结构化数据的关键字搜索已经有过较多的研究,随着结构化数据(以关系数据为典型代表)和半结构化数据(以XML数据为典型代表)数量的日益增多,人们转而把目光投向对这两类数据的关键字搜索研究。本文在充分吸取前人研究成果的基础上,以关键字搜索的效率和有效性为侧重点,针对现有工作存在的问题进行了较为深入的研究,提出了创新性的解决方法,主要取得了以下研究成果: 1.对关系数据的关键字搜索,目前最流行的方法是基于搜索时连接的搜索方法,本文研究了其核心问题——模式图上连接表达式的搜索算法,提出了一种时间复杂度为多项式级延迟的搜索算法,并给出了它的正确性证明和时间复杂度分析。 2.本文提出了一种基于预连接的对关系数据的关键字搜索方法。本文分析了在关系数据库中引入关键字搜索之后可能引发的若干问题,提出将搜索结果定义为包含所有查询关键字的完全元组图(CTG),在此基础上设计了基于归并排序的高效的搜索算法,并给出了对搜索结果集的相关性排序方法。最后,对索引更新问题也给出了具体的解决方法。 3.本文提出了一种基于MIU的对XML数据的关键字搜索方法。本文分析了在XML关键字搜索中结果粒度精细化可能引发的若干问题,定义了最小信息单元(MIU)的概念,给出了对任意XML文档划分最小信息单元的方法,并提出以最小信息单元作为索引、搜索的最小粒度,设计了精简的索引结构和相应的搜索算法。 对于上述这些研究成果,本文给出了相应的实验数据,实验结果表明这些方法在关键字搜索的效率和有效性方面均有不同程度的提升,在科研领域和商业应用中都有着很好的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 文必龙;王瑞;姚建蓬;黄俊莲;;一种Excel数据到结构化数据的转换方法[J];佳木斯大学学报(自然科学版);2006年03期
2 王晓东;江元;徐超;;XML技术在Web数据挖掘中的应用[J];中国科技信息;2008年18期
3 庄毅,徐海力;半结构化数据与关系数据的比较研究[J];计算机与现代化;2004年01期
4 韩京宇;徐立臻;董逸生;;Web数据仓库研究综述[J];计算机科学;2004年11期
5 张荣富;;XML在Web数据挖掘技术中的应用相关问题探索[J];现代经济信息;2010年02期
6 严亚兰;基于Web环境的半结构化数据模型研究[J];中国图书馆学报;2003年04期
7 色菲;王佳;潘超;;基于XML描述的WEB信息抽取技术研究[J];科技信息(科学教研);2007年34期
8 许斗,陈恩红;XML的半结构化数据表示方法及其在医学文档处理中的应用[J];计算机工程;2002年01期
9 邹国华;;对XML存取的研究与实现[J];科技广场;2005年12期
10 沈艺;基于XML的信息存储与检索[J];计算机系统应用;2002年08期
11 徐占鹏;杨树杰;;基于前缀编码的模型映射改进方法研究[J];科技风;2008年04期
12 曾桢;;XML在关系数据库中的存储检索研究[J];贵州教育学院学报;2008年09期
13 孙天翔;;基于前缀编码的模型映射改进方法研究[J];硅谷;2009年02期
14 陈继明;鞠时光;潘金贵;;基于正则路径表达式的XML查询优化技术研究[J];计算机科学;2007年02期
15 牛志玲;曾丽娟;;面向Web的数据挖掘面临的挑战[J];科技资讯;2008年09期
16 杨晓东;朱皓;杨卫东;施伯乐;;基于结构语义的XML关键字搜索[J];计算机应用与软件;2009年10期
17 蒋桂梅,宋阳秋;XML查询语言XQuery及其查询优化[J];福建电脑;2005年08期
18 王玉凤;徐静;;病案数据的XML存储模式研究[J];信息技术;2008年10期
19 吴共庆,陈恩红;一种基于XML的半结构化数据存储方法[J];计算机工程;2004年10期
20 李剑波;李小华;董树明;杨科华;;一种基于XML的Web信息抽取方法[J];情报杂志;2006年08期
中国重要会议论文全文数据库 前10条
1 朱皓;杨卫东;魏正军;施伯乐;;XML关键字搜索中一个高效的寻找XLCA的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 岳昆;吴益忠;王晓玲;周傲英;;基于转换技术的XML文档规范化及更新[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 郭瑞强;苏仕云;乐嘉锦;;XML数据的存储模式研究[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 张晓琳;谭跃生;张军;王国仁;;面向对象XML查询代数研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 郑仕辉;何奇;张龙;梁宇奇;周傲英;;XML文档的相似测度研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 李然;张云霞;汪卫;施伯乐;;改进的贪心算法在数字图书馆XML元数据存储中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
2 方黎明;带关键字搜索公钥加密的研究[D];南京航空航天大学;2012年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
5 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
6 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
7 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
8 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
9 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
10 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 任辉;XML数据到关系数据映射的研究[D];安徽理工大学;2006年
2 王瑞;半结构化数据集成技术研究[D];大庆石油学院;2007年
3 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
4 黄蓓蓓;基于XML的多媒体数据转换存储研究[D];暨南大学;2006年
5 陈继明;基于正则路径表达式的XML查询优化技术的研究与实现[D];江苏大学;2005年
6 周超;半结构化XML数据与关系数据库之间转换的应用与研究[D];武汉理工大学;2006年
7 刘朝锋;基于实体的XML关键字搜索问题研究[D];山东大学;2012年
8 李姝;基于XML的Web数据挖掘研究[D];大连海事大学;2007年
9 陈炳超;基于XML的WEB数据挖掘研究[D];暨南大学;2008年
10 廖鹏;基于XML的Web数据挖掘及关联算法的研究[D];西南大学;2009年
中国重要报纸全文数据库 前10条
1 雨 青;关键字搜索的漏网之鱼[N];中国电脑教育报;2005年
2 秦林;《XML完全探索》[N];中华读书报;2001年
3 晓民;用好关键字搜索[N];中国消费者报;2001年
4 美润/文;Lycos采用新一代搜索引擎[N];财经时报;2001年
5 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
6 记者 林雨;关键字广告市场呼吁规范[N];民营经济报;2006年
7 ;分化并不能阻止XML发展[N];中国计算机报;2000年
8 ;为XML标准定标准[N];中国计算机报;2001年
9 ;调查显示:关键字搜索最受网民青睐[N];通信信息报;2004年
10 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978