收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的全文检索方法及原型系统实现研究

王忠义  
【摘要】: 随着社会信息化的发展,人们已迈入了信息时代,并朝着知识时代迈进。在这一时代背景下,信息对企业或组织的作用越来越突出,成为企业或组织存在和发展的关键。然而由于企业或组织缺乏对其自身所拥有的信息资源的有效管理,致使其不能及时获得所需要的信息。这是由于当前企业或组织所采用的数据库系统方式和大型搜索引擎的站内搜索提供的全文检索功能来实现对其所拥有的数据资源进行检索的方法都存在一定的缺陷:前者只适用于信息量较小的情况,随着信息的累积,使用数据库系统中的类似like“%keyword”查询,其全文检索性能将急剧下降;而后着也存在着索引效率低、更新慢、数据不准确和无法控制输出格式等问题。针对以上问题,本文提出了一种基于XML的全文检索方法以实现对企业或组织的信息资源的有效管理。具体而言,本文的工作主要包括以下几个方面: (1)对当前两种主要的全文检索技术:字索引与检索技术、词索引与检索技术进行了深入的分析研究,以为基于XML的全文检索方法的实现提供依据和支持。 (2)对XML相关技术进行了深入的研究。充分考虑XML置标添加的灵活性以及置标本身所蕴涵的语义信息,从索引机制与索引结构入手,在建立索引时,不仅考虑如何从文档中找到相关信息,而且考虑了信息的结构和粒度问题,实现内容+结构的信息检索。利用XML作为一个通用数据接口,也即将其他的数据资源(如数据库资源、PDF格式的文件WORD文档等)转换成XML格式的文件,这样可以提高建立索引的速度并能够减小存储的空间。这是因为把搜索到的信息存进单一的XML文档中,相对于每个独立文件,可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在文档数据量比较大的时候效果特别明显;此外,规范化的存储能避免对所有搜索到的文件都进行单独存储,减少存储空间,提高管理效率。 (3)对全文检索系统实现平台Lucenc进行了深入的分析,并针对具体问题,对其进行了改进和优化,如解析模块的改进、索引器和检索器接口参数的优化等。 (4)最后,开发实现了基于XML的全文检索的原型系统。整个原型系统包含XML文档解析、分字段全文索引、XML文档查询等几个子模块。模块按功能区分,模块之间通过接口来相互操作,这样使得原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合。 总之,本文的研究成果为建立高效、准确、实用的基于XML全文检索系统打下了坚实的基础,为有效管理企业或组织的信息资源提供了方法和手段。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 夏立新;王忠义;;基于XML的全文检索原型系统的设计与实现[J];现代图书情报技术;2007年08期
2 刘建军;;用SQL Server 2000进行全文检索[J];科技资讯;2007年08期
3 刘建军;;用SQL Server 2000进行全文检索[J];科技咨询导报;2006年08期
4 刘二灿;计算机全文检索的探讨与实践[J];河南图书馆学刊;1998年03期
5 ;告读者[J];国际汉语学报;2016年01期
6 ;告读者[J];国际汉语学报;2016年02期
7 ;欢迎订购《中国实用内科杂志》25周年全文检索光盘[J];中国实用内科杂志;2009年02期
8 ;欢迎订购《中国实用内科杂志》25周年全文检索光盘[J];中国实用内科杂志;2009年04期
9 符捷雯;;媒体资料库的全文检索效率提升[J];中国传媒科技;2008年09期
10 李少兵;《二十五史多媒体全文检索阅读系统》评价[J];中国史研究动态;2000年11期
11 杨则正;借助于Zylmage Web Server的全文检索[J];管理科学文摘;1998年08期
12 兰萍;;SQL Server 2005全文检索在数据查询中的应用[J];电脑编程技巧与维护;2010年20期
13 晓月;;全文检索原理及实现[J];程序员;2006年12期
14 ;《二十五史多媒体全文检索阅读系统》出版[J];历史档案;2000年04期
15 杨建林;全文检索研究[J];情报理论与实践;2000年01期
16 孙俊杰;中文高速全文检索数据库[J];中文信息;1998年05期
17 王旭东;;信息检索的发展概况(下)—中文全文检索简述[J];中国新闻科技;1998年06期
18 李创业,曾昕琳,李燕,王宇红;影响全文检索效果的主要因素及改善方法[J];情报理论与实践;2002年06期
19 吕健强;ASP中文全文检索在SQL Server 2000中的实现[J];计算机与农业.综合版;2003年01期
20 吕健强;ASP中文全文检索在SQL Server 2000中的实现[J];计算机与农业.综合版;2003年02期
中国重要会议论文全文数据库 前10条
1 曾福萍;周定康;;基于索引服务器实现全文检索[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
3 廉成洋;毛宇光;;一种基于二叉树的HTML到XML的转换方法研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 赵相国;王国仁;张恩德;丁大斌;霍欢;;XML函数依赖的定义及分析[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 杜良敏;王宏记;;气象行业常用若干数据格式的标准化与XML规范的引入[A];2004年湖北省气象学会年会学术论文详细摘要集[C];2004年
8 蒋序平;陈鸣;;一种基于XML的网络测量信息描述方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
9 王明文;朱清新;匡平;;一种从关系模式到XML模式的转换方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 杜震嵘;;基于XML的知识表示[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 马刘凤;中国古书凡例研究[D];武汉大学;2009年
2 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年
3 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年
4 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
5 王宏志;XML数据查询处理技术的研究[D];哈尔滨工业大学;2008年
6 鱼滨;基于XML的集成中间件技术研究[D];西北大学;2003年
7 丁铁楠;XML文档聚类及其评估问题研究[D];吉林大学;2015年
8 王洪强;XML索引及查询处理技术研究[D];哈尔滨工业大学;2009年
9 温延龙;XML信息检索关键技术研究[D];南开大学;2012年
10 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 王忠义;基于XML的全文检索方法及原型系统实现研究[D];华中师范大学;2009年
2 刘乐乐;面向垂直领域的中文检索系统的设计及实现[D];武汉工程大学;2018年
3 王升;基于SNS的职业院校线上学习系统设计与实现[D];哈尔滨理工大学;2019年
4 竺润龙;博客媒体分析系统设计与实现[D];华中师范大学;2018年
5 秦文静;基于多安全级的云端数据库密文全文检索[D];华中科技大学;2017年
6 周爱民;校园安全保卫信息化关键技术研究[D];长沙理工大学;2018年
7 周航;基于全同态密码技术的密文全文检索方法与系统[D];中南民族大学;2016年
8 孙黎月;面向博客管理的全文检索技术研究与实现[D];天津理工大学;2018年
9 李晓伟;云环境下的舆情监测关键技术研究[D];西南科技大学;2017年
10 郭建荣;基于分布式计算的全文检索关键技术研究[D];北京邮电大学;2014年
中国重要报纸全文数据库 前10条
1 本报记者 王昊魁;满文档案全文检索 数据库对公众开放[N];光明日报;2018年
2 郭莹;全文检索市场空间大[N];中国计算机报;2006年
3 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
4 子华;从全文检索到信息整合[N];计算机世界;2003年
5 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
6 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
7 温苏刚 姚大红;在PB中实现全文检索[N];计算机世界;2002年
8 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
9 本报记者 孙志永;国信贝斯iBASE 为数据库添加“全文检索”[N];中国计算机报;2001年
10 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978