收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文信息检索索引模型及相关技术研究

杨传耀  
【摘要】: 随着计算机系统性能的提高,互联网络技术的快速普及,以及企业信息化程度的提高,中文信息资源以极快的速度递增。信息检索就是从庞大的信息资源中找到人们所需信息的技术。 信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。目前,信息检索已经发展到网络化和智能化的阶段。为了提高检索的准确率以及增强用户体验,对中文信息检索除了继续研究索引技术外,对索引技术之外的相关技术研究方兴未艾。跟英语的提取词根(stemming)技术类似,中文分词技术是处理中文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。自动分类(聚类)在信息组织、导航方面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。 本文以中文信息检索的索引模型为研究对象,也对信息检索其它相关技术进行了研究,主要包括中文分词、文本关联分析、文本快速分类。提出了后续有序的互关联后继树索引模型、基于互关联后继树快速准确的中文分词算法、基于模拟退火算法的快速KNN分类算法和基于投影和树的频繁项挖掘算法。本文的研究工作和创新内容包括以下几个方面: 1互关联后继树索引模型的改进研究 互关联后继树是国内自主提出的优秀信息检索索引模型,它具有创建速度快,空间和查询效率高等特点,并且可以通过索引生成原文等优点。为了在Internet上大规模应用,在创建和更新文本索引以及全文检索速度等方面能达到实用的要求,本文对这个索引模型做了进一步的研究,提出了后续有序的互关联后继树索引模型。它的优点是在进行检索时,对有序的子树进行求交,能快速地检索出结果,从而有效地提高了信息检索的时间效率。 2基于互关联后继树的快速和准确中文分词 中文信息检索的查准率跟中文分词的准确率是息息相关的。目前有很多算法的准确率比较高,但是是以牺牲时间为代价获得的。在Internet上应用,分词算法的时间效率和分词准确率之间是个折衷平衡的关系,在能满足分词速度实用的前提下,尽可能提高分词的准确率。在提高分词速度方面,本文提出了用互关联后续树作为分词过程中使用的数据结构。中文分词准确率不高的主要原因是对歧义词和未登录词的划分不够准确,本文对中文机构名称和地名进行了研究分析,找出它们的特点,提出了一种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。 3基于模拟退火的快速KNN算法 在Internet信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(lazy)算法,将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。 4基于投影和树的文本频繁项挖掘算法 由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Internet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。 5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。 利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显著的成效。尽管黄页搜索引擎(一期)系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李文捷;中文信息检索中的自然语言处理(英文)[J];Transactions of Tianjin University;2000年02期
2 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
3 孙育华;韩中元;韩咏;李军;;中文信息检索中多索引策略融合的研究[J];黑龙江工程学院学报(自然科学版);2009年04期
4 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
5 韩中元;韩咏;马威;崔硕;;中文信息检索中二元文法索引策略的改进[J];微计算机信息;2010年15期
6 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
7 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
8 贺宏朝,何丕廉,陈霞;利用人工和自动生成的资源进行中文信息检索查询扩展[J];计算机工程与应用;2002年21期
9 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
10 刘峰,韩咏,李晓红;基于相邻实词关系的汉语信息检索[J];自动化技术与应用;2005年03期
11 周水庚,关佶红,胡运发;基于文档实例的中文信息检索[J];计算机工程与应用;2000年10期
12 涂新辉;罗景;;基于相关术语群的中文查询扩展[J];计算机与数字工程;2008年01期
13 吴凡;;信息检索中的中文分词问题研究[J];情报杂志;2008年07期
14 陈颖;白淑琴;张学福;;基于共词分析的中文信息检索可视化研究[J];情报科学;2009年02期
15 孙宝传;有感于TRS千家用户诞生之时——扭住不放自主创新[J];中国传媒科技;2002年04期
16 郑新立;徐云青;骆昌日;;LSI模型在信息检索中的应用[J];计算机技术与发展;2006年10期
17 罗景;涂新辉;;基于概率潜在语义分析的中文信息检索[J];计算机工程;2008年02期
18 张新华;骆昌日;曹浪舟;;基于VSM的中文信息检索[J];高等函授学报(自然科学版);2006年04期
19 徐云青;徐义峰;李舟军;;基于VSM的中文信息检索[J];计算机系统应用;2007年04期
20 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期
中国重要会议论文全文数据库 前5条
1 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 何婷婷;许婷;瞿国忠;涂新辉;;基于主题词对的文档重排方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 陆汝占;;中文检索与汉语语义概念图表示[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 陈豫;;WWW网上中文信息的全文检索技术开发[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
中国博士学位论文全文数据库 前3条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前10条
1 毛媛媛;基于语义扩展的中文信息检索系统设计与实现[D];电子科技大学;2013年
2 王平;小型中文信息检索测试集的构建与分析[D];河北大学;2009年
3 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
4 瞿国忠;查询扩展技术研究[D];华中师范大学;2007年
5 王随涛;基于概念图模型的词汇多源释义的融合研究[D];上海交通大学;2010年
6 陈颖;基于摘要信息的中文信息检索可视化系统研究与实现[D];黑龙江大学;2007年
7 韩中元;中文索引策略的研究[D];哈尔滨工程大学;2007年
8 涂新辉;中文文本信息检索相关技术研究[D];华中师范大学;2006年
9 余刚;基于语义概念的文本特征描述[D];重庆大学;2005年
10 薛静;中文信息检索中相关算法的研究[D];辽宁科技大学;2007年
中国重要报纸全文数据库 前10条
1 记者 贺建业 侯利红;拓尔思拟发行3000万股[N];上海证券报;2011年
2 付之;百度:技术制胜[N];网络世界;2001年
3 ;非门户网站的信息建设[N];网络世界;2001年
4 本报记者 赵齐;慧聪今秋对决GOOGLE[N];国际商报;2003年
5 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
6 本报记者 刘红鹰;搜索引擎还有戏?[N];信息时报;2000年
7 李冬梅 萧倩;软件触网慎思量[N];北京日报;2000年
8 本报记者 李晓萍;个性订制——打开未来信息服务之门[N];经济参考报;2001年
9 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
10 ;站内搜索也疯狂[N];科技日报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978