收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

全文检索及相关技术研究

林义明  
【摘要】:随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为结构化和非结构化数据。据统计,非结构化数据占有整个信息量的80%以上。而通过全文检索技术就能高效地管理这些非结构化数据。全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。现今,全文检索系统已成为新一代信息管理系统的代名词。 论文从三个方面研究全文检索[1]的相关技术,它们是中文分词、索引、检索。对比了现有的一些典型的快速中文分词词典机制及方法,并研究了改进现有词典机制的一些方法。在双字哈希词典的基础上提出了把次字哈希表中的冲突汉字按频率信息排序的改进方法,加快了分词速度。研究了基于自动机[2]的中文分词方法,提出了用硬件实现中文分词的建议。设计比较实验,验证典型分词词典机制及其改进结构和本文提出的改进结构及分词方法的性能。结合英文单词识别、大小写转换、停用词过滤、词干提取等功能,实现了一个分词器工具。它既可以单独使用,也可以配合其它工具一起使用。 研习了传统倒排索引及其一些改进方案,吸取Lucene的索引结构特点,设计了一种面向域的增量式倒排索引格式,提出了把相对域号修改为绝对域号的方法,使得在多个索引段进行查询时只需要进行一次域名到域号的转换,节约查询时间,并运用压缩技术减小索引文件的大小。基于所设计的索引文件格式,实现了一个索引器工具,并利用该工具设计实验,验证了索引的增量式性能及压缩效果。 学习了检索过程、文档评分及相关反馈等整个检索流程的相关技术与算法。并实现了一个检索器工具,该工具支持词条查询、布尔查询以及自由文本查询,在自由文本查询中运用了空间向量模型中的相似度计算方法。利用索引器和检索器,本文进行各种测试实验,验证索引和检索的正确性。 实现的分词器、索引器、检索器一起构成了一个基本检索系统框架,利用该框架,可以为实现各种各样的检索系统提供便利。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期
2 隋贤俊;高新奇;秦怀斌;;MySQL数据库进行中文全文检索的模拟实现方法[J];福建电脑;2008年01期
3 任晓娜;;基于Lucene的全文搜索引擎的研究与实现[J];湖北广播电视大学学报;2010年05期
4 赵刚;冒亚明;刘斌;;基于Oracle和Lucene.net的文档管理系统[J];电脑知识与技术;2008年S2期
5 满鹏;;全文检索的原理与实现探讨[J];现代情报;2009年07期
6 曾元鉴,李孝明;一个中文全文检索系统的设计与实现[J];计算机与数字工程;2004年03期
7 于波,宋麟;利用全文检索技术实现Web页的搜索[J];数理医药学杂志;2003年05期
8 黄青松;基于计算语言学的全文检索[J];昆明理工大学学报;1997年03期
9 郑伦卫;自然语言在全文检索系统中的应用及发展对策[J];图书馆理论与实践;2004年03期
10 李焱;路莹;;基于Lucene的医学文献检索系统[J];中华医学图书情报杂志;2010年09期
11 赵曾贻,陈天娥,朱兰;一种基于语词的分词方法[J];苏州大学学报(自然科学版);2002年03期
12 高龙;;网上图书馆论文系统的设计与实现[J];计算机系统应用;2006年01期
13 王翔;;数据库技术[J];程序员;2007年01期
14 林碧英;赵锐;陈良臣;;基于Lucene的全文检索引擎研究与应用[J];计算机技术与发展;2007年05期
15 张宝元;串查找 串匹配 全文检索──谈检索系统的实现和选择[J];中国信息导报;1995年12期
16 曹蕾,万俊伟,齐治昌,谭庆平;利用DBMS与IRS实现中文全文检索的研究[J];计算机工程与科学;2000年02期
17 牟有静,侯丽梅;浅谈数字图书馆与全文检索技术[J];情报科学;2002年05期
18 刘灿;;开源信息检索库Lucene的关键技术研究[J];科技信息(学术研究);2008年29期
19 孙国泉;网络环境下的全文检索系统[J];图书馆;1997年03期
20 段利军,张大力,邵洁;科技期刊上网中的关键技术研究[J];计算机工程与应用;2000年03期
中国重要会议论文全文数据库 前10条
1 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
4 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年
5 范志新;王宁;陶晓鹏;施伯乐;;开放式图书馆汉语检索结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
6 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
8 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 魏国志;骆斌;商琳;;基于WWW方式的法律法规检索系统的设计与实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
10 曾福萍;周定康;;基于索引服务器实现全文检索[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
2 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
5 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
6 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
8 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 林义明;全文检索及相关技术研究[D];辽宁科技大学;2012年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 葛振国;基于Lucene的数据库全文检索研究与应用[D];西南石油大学;2010年
4 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
5 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
6 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
7 卢光华;基于Lucene的全文检索研究与应用[D];吉林大学;2009年
8 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
9 曾旭;全文检索引擎应用于邮件的设计与实现[D];电子科技大学;2010年
10 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
中国重要报纸全文数据库 前10条
1 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
2 张伟;增强全文检索与搜索功能[N];中国计算机报;2008年
3 松涛;雅风全文检索器[N];中国电脑教育报;2004年
4 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
5 温苏刚 姚大红;在PB中实现全文检索[N];计算机世界;2002年
6 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
7 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
8 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
9 本报记者 孙志永;国信贝斯iBASE 为数据库添加“全文检索”[N];中国计算机报;2001年
10 子华;从全文检索到信息整合[N];计算机世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978