收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向关系数据库的关键字近似搜索技术研究

王斌  
【摘要】: 近年来Web数据大量增长,如何为用户提供有效的搜索技术成为研究的热点。在分布式环境下,通过数据收集,得到的Web数据主要存储在关系数据库中,大量来自不同数据源的Web数据,具有异构模式。在目前的发展阶段,搜索引擎是支持用户查询请求的重要手段。用户根据兴趣,通过搜索引擎接口输入相关的关键字,系统提供快速响应回答用户的请求。很多情况下,用户提交的请求不能与数据库中的数据进行精确匹配,例如:用户对数据了解的程度有限、录入的数据包含错误信息、来自多个数据源的数据存在不一致性等。因此,在关系数据库上有效地支持近似关键字搜索带来了一系列新的挑战,诸如,面向关系数据库的近似查询处理,字符串近似匹配的执行效率和查询结果的排序等问题。本文针对上述问题进行研究,主要工作包括以下几点: (1)为改善对关系元组中字符串数据的近似查询效率,提出一种新颖的索引结构,简称VGRAM (变长GRAM)。与传统的解决近似字符串查询的索引方法相比,VGRAM索引不但节省了近似查询算法的时间,并且将索引的空间缩小了1倍以上。同时,该技术具有很好的可移植性,任何一个基于gram思想的近似字符串查询算法都可以采用该索引技术并提高原有算法的执行效率。其主要思想是:在字符串集合中,选择高质量的变长gram来支持该集合上的查询。重点研究的问题包括:如何从特定集合中选择高质量的gram、如何基于预选的gram将字符串分解成一组变长的gram集合,以及分析两个gram集合间的相似度同它们编辑距离间的关系。基于真实数据集上大量的实验测试结果表明,VGRAM索引技术可以显著地改善最新的三种经典算法的查询性能。 (2)提出了基于代价的高质量gram选择技术。当采用基于gram的倒排列表作为索引结构时,索引项gram的选取直接决定索引结构,进而决定近似查询的执行效率。针对gram索引项集和查询性能间的关系,提出一种计算两个字符串公共gram数目的下限的动态规划算法,以提高下限值,从而获得更快的近似匹配时间。系统地分析gram索引结构对近似匹配性能的影响,并提出一个自动构造高质量gram索引项集的算法。在真实数据集上的实验展示了这些技术对查询性能的改善。就目前所知,这是第一个基于代价分析的gram选择方法。 (3)针对有限的form查询接口进行查询扩展,提出基于form查询接口的改善近似搜索能力的查询重写技术。很多近似搜索引擎为用户提供form接口,用户通过form接口提交关键字并获得搜索结果。返回给用户的结果大多数是根据填写在查询接口中不同值域内的关键字计算得到的,导致查询结果的查全率(recall)很低。本文提出一种数据挖掘方法,通过对历史查询及其结果进行挖掘分析,得到一组查询重写知识,包括数据项树和推理规则。利用这些重写知识,可以对用户查询进行扩展,以提高基于form的近似搜索能力,特别是查全率。从不同Web网站上随机选取的3,800篇文档组成的测试集上的实验结果表明:所提出的数据挖掘和查询重写方法获得的平均查准率和查全率均高于80%,而假通过率低于2.0%。 (4)针对关系数据表之间以及元组间的数据依赖关系,提出一种支持关系数据库的关键字近似搜索的语义评价模型,包括语义相关度计算和语义评分函数。基于提出的语义评分函数,提出两种以数据块为处理单位的Top-k搜索算法,分别为BA(Blocking Algorithm)算法和EBA(Early-stopping Blocking Algorithm)算法。EBA在BA基础上引入了过滤阈值以便尽早终止算法的迭代过程。实验结果显示所提出的语义评分函数保证了搜索结果的高查准率和查全率,BA算法和EBA算法改善了现有方法的查询性能。 总之,本文研究了面向关系数据库的关键字近似搜索技术的几个核心问题,并提出了新的解决方案。理论分析和大量基于实际数据集的测试表明所提出的方法的有效性和高效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吕汉兴;孙德保;程良铨;;用关系数据库系统实现中医的辨证论治[J];微型机与应用;1989年02期
2 马宗民,严丽;关系数据库中一种混合类不完全信息的引入[J];计算机研究与发展;1996年11期
3 唐潜,杨德华;用JAVA类封装RDB库表──在关系数据库上运用OO技术探讨[J];计算机应用研究;1999年11期
4 宋小安,李志华;基于关系数据库的故障诊断专家系统在雷达电源中的应用[J];河海大学常州分校学报;2004年03期
5 陈丽冰;浅谈XML与HTML和关系数据库的比较[J];中国科技信息;2005年18期
6 赵韩,姜康,曹文钢,于振华;制造业信息管理系统中的数据库代理模式[J];合肥工业大学学报(自然科学版);2005年09期
7 谢彩香;刘召芹;孙成忠;柳林;;基于工作流的图文办公自动化权限管理设计[J];测绘通报;2006年01期
8 代霜;徐抒岩;;空间遥感相机电子学仿真专家系统[J];微计算机信息;2006年01期
9 ;BEA发布Workshop Studio 3.O[J];软件世界;2006年Z1期
10 郝春辉;邹静;;基于XML Schema的XML存储[J];计算机工程与应用;2006年11期
11 伍军云;徐少平;林振荣;王炜立;;一种新的关系数据库查询优化方法[J];计算机与现代化;2006年07期
12 虞晓磊;黄伟力;郑骥;;关系数据库到XML数据转换的实现[J];华南金融电脑;2006年07期
13 杨蔚鸣;;关系数据库的查询优化以及在现实中的应用[J];今日科苑;2006年09期
14 盛步云;林志军;丁毓峰;;协同设计中基于关系数据库的冲突检测技术研究[J];机械设计与制造;2006年09期
15 杜向华;赵秀梅;秦松;;几种XML数据存储技术[J];科技信息(学术版);2007年02期
16 陶再平;樊甫伟;吴吉义;;基于对象-关系映射技术的数据库应用系统的开发[J];电脑知识与技术(学术交流);2007年10期
17 吴浪;;关系数据库查询优化研究[J];才智;2008年10期
18 徐多勇;李志蜀;;基于持久化的网吧管理系统数据库设计和实现[J];成都信息工程学院学报;2008年03期
19 楼永坚;薛德东;;LBS小型应用体系结构的研究与设计[J];杭州电子科技大学学报;2008年03期
20 谢东;吴敏;;基于范围语义的非一致性数据库聚集查询[J];中南大学学报(自然科学版);2008年04期
中国重要会议论文全文数据库 前10条
1 何义剑;姚青;洪晓光;;基于关系数据库的业务流程本体存储模式研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 吴红伟;王庆;萧建昌;周傲英;;XML键约束在关系数据库中的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 陈欣;金远平;吕扬;;基于本体的关系数据库的语义设计模式[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 顾平;周力;;基于MDA的关系数据库的设计与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 汪璟玢;郭朝珍;;基于关系数据库的空间数据管理[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
6 郭景峰;李莉;宫继兵;;粗关系数据库中的粗关系运算研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 应毅;毛宇光;;可信度在次协调关系数据库中的应用[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 茹戈华;石树刚;郑振楣;;基于关系数据库的演绎查询系统[A];第十一届全国数据库学术会议论文集[C];1993年
10 沈国华;黄志球;朱小栋;孔红云;;数据集成中关系数据库到OWL语义映射[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
2 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
3 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
4 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
5 罗德安;一种基于关系数据库的空间数据模型及其特殊应用[D];西南交通大学;2001年
6 赵雷;域数据模型的研究与实现[D];苏州大学;2006年
7 Ali HAMADOU;用于关系数据库认证和权益保护的数字水印技术[D];湖南大学;2012年
8 胥正川;基于关系数据库的XML数据存储、更新和检索[D];复旦大学;2003年
9 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
10 徐小双;基于路径概要的XML查询研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 周志易;ComGIS在油气资源分布与勘查工作空间数据库中的研究与应用[D];长安大学;2004年
2 程慧;对象驱动的CAPP专家系统的开发研究[D];武汉科技大学;2005年
3 苑林英;基于对象—关系映射技术解决Java环境中持久化问题的研究[D];中国地质大学(北京);2006年
4 黄林;制丝生产线香精香料管理信息系统研究与实现[D];昆明理工大学;2006年
5 梁红洲;基于工作流的人力资源管理系统(HRMS)的研究与设计[D];西南交通大学;2007年
6 徐姝;代理键技术及其在信息集成中的应用[D];重庆大学;2007年
7 印洪浩;道路交通事故信息管理与结案辅助系统的研究开发[D];重庆交通学院;2004年
8 何璐;基于关系数据库的本体生成器的设计与实现[D];武汉科技大学;2008年
9 詹火木;基于关系数据库的XML存储和查询的研究[D];重庆大学;2008年
10 龚慧;基于语义的XML模式到关系模式的转换[D];湖南师范大学;2009年
中国重要报纸全文数据库 前10条
1 记者 罗添;周鸿祎重打搜索技术牌[N];北京商报;2006年
2 网络推手 詹鹏 张文杰;揭秘人肉搜索引爆点[N];中国经营报;2008年
3 ;搜索引擎服务的新商机[N];21世纪经济报道;2006年
4 本报记者 陈昌成;陈沛:未来的搜索会更加精确[N];中国企业报;2010年
5 佐岸;巧借网络新特性推广图书[N];中华读书报;2006年
6 本报记者 沈烽;桌面搜索技术挑战传统搜索模式[N];通信信息报;2004年
7 本报记者 贾晶晶;谷歌为何屡屡“聚黄”?[N];中国企业报;2009年
8 顾汶;搜索门户将取代门户搜索?[N];中国高新技术产业导报;2004年
9 毛涛涛;张朝阳:放弃搜索技术很危险[N];北京商报;2007年
10 张国;专家呼吁唤醒“沉睡”信息[N];经济日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978