收藏本站
《复旦大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文信息检索索引模型及相关技术研究

杨传耀  
【摘要】: 随着计算机系统性能的提高,互联网络技术的快速普及,以及企业信息化程度的提高,中文信息资源以极快的速度递增。信息检索就是从庞大的信息资源中找到人们所需信息的技术。 信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。目前,信息检索已经发展到网络化和智能化的阶段。为了提高检索的准确率以及增强用户体验,对中文信息检索除了继续研究索引技术外,对索引技术之外的相关技术研究方兴未艾。跟英语的提取词根(stemming)技术类似,中文分词技术是处理中文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。自动分类(聚类)在信息组织、导航方面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。 本文以中文信息检索的索引模型为研究对象,也对信息检索其它相关技术进行了研究,主要包括中文分词、文本关联分析、文本快速分类。提出了后续有序的互关联后继树索引模型、基于互关联后继树快速准确的中文分词算法、基于模拟退火算法的快速KNN分类算法和基于投影和树的频繁项挖掘算法。本文的研究工作和创新内容包括以下几个方面: 1互关联后继树索引模型的改进研究 互关联后继树是国内自主提出的优秀信息检索索引模型,它具有创建速度快,空间和查询效率高等特点,并且可以通过索引生成原文等优点。为了在Internet上大规模应用,在创建和更新文本索引以及全文检索速度等方面能达到实用的要求,本文对这个索引模型做了进一步的研究,提出了后续有序的互关联后继树索引模型。它的优点是在进行检索时,对有序的子树进行求交,能快速地检索出结果,从而有效地提高了信息检索的时间效率。 2基于互关联后继树的快速和准确中文分词 中文信息检索的查准率跟中文分词的准确率是息息相关的。目前有很多算法的准确率比较高,但是是以牺牲时间为代价获得的。在Internet上应用,分词算法的时间效率和分词准确率之间是个折衷平衡的关系,在能满足分词速度实用的前提下,尽可能提高分词的准确率。在提高分词速度方面,本文提出了用互关联后续树作为分词过程中使用的数据结构。中文分词准确率不高的主要原因是对歧义词和未登录词的划分不够准确,本文对中文机构名称和地名进行了研究分析,找出它们的特点,提出了一种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。 3基于模拟退火的快速KNN算法 在Internet信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(lazy)算法,将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。 4基于投影和树的文本频繁项挖掘算法 由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Internet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。 5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。 利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显著的成效。尽管黄页搜索引擎(一期)系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 孔凡壬;基于本体的制造业领域Web信息集成[D];广西师范大学;2008年
【参考文献】
中国期刊全文数据库 前10条
1 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
2 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
3 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
8 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
9 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
10 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
【共引文献】
中国期刊全文数据库 前10条
1 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
2 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
3 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
4 马正元,王伟玲,王玉生;生产调度问题的系统研究[J];成组技术与生产现代化;2005年01期
5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
6 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
9 康松林;施荣华;;基于信息元的教学资源组织系统的设计与实现[J];电脑与信息技术;2006年04期
10 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
中国重要会议论文全文数据库 前10条
1 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 Peng Hu, Haitao Fang Key Laboratory of Systems and Control, Academy of Mathematics and Systems Science Chinese Academy of Sciences, Beijing, 100080, P.R.China;The Best Possible Metropolis Type Algorithm[A];第二十四届中国控制会议论文集(上册)[C];2005年
6 胡巧华;吴怀宇;陈乔礼;陈媛;;一种求解旅行商问题的启发交叉算子的研究[A];第25届中国控制会议论文集(中册)[C];2006年
7 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
8 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 傅慧萍;潜射导弹运载器水弹道动力系统建模及其应用研究[D];西北工业大学;2000年
2 黄宁;遥感图象中模式分类技术的研究[D];中国科学院电子学研究所;2001年
3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
4 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
5 周国华;生产作业调度问题的软计算方法研究[D];西南交通大学;2003年
6 刘勇国;基于数据挖掘的网络入侵检测研究[D];重庆大学;2003年
7 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
8 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
9 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
10 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 吴巍;复杂网络可视化与Link OLAP[D];北京邮电大学;2007年
3 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
4 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
5 刘建波;基于Agent的用户兴趣模型的研究[D];沈阳工业大学;2005年
6 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
7 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
8 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
9 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
10 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 曹泽文,张维明,朱承;任务链:知识库组织的一种新方法[J];计算机工程;2002年01期
2 徐延宁,孟祥旭,吕琳;基于知识的参数化设计层次模型[J];计算机辅助设计与图形学学报;2004年10期
3 惠晓实,王凯航,陆舟,谢璨;一种基于Web技术的网络数据库系统的设计[J];计算机应用研究;2000年01期
4 孙焕良,王永会,宋晓宇,李彤,李晓辉;基于面向对象技术构建多维数据模型[J];沈阳建筑工程学院学报(自然科学版);2002年03期
5 宋晓宇,薛春燕,许景科;关联规则在先进技术与产品推荐系统中的应用[J];沈阳建筑大学学报(自然科学版);2005年05期
6 赵丹群;理想的Web查询工具——Meta-Searcher[J];图书情报工作;2000年09期
7 孙瑾;;本体编辑工具的分析与研究——Protégé2000对中文本体编辑的适用性探析[J];图书情报工作;2006年12期
8 赵庆龄,钱平,苏晓路,杨娟,赵明;基于本体论的土壤知识体系智能检索系统的设计与Web实现[J];中国农业大学学报;2003年S1期
9 骆正清,陈增武,王泽兵,胡上序;汉语自动分词研究综述[J];浙江大学学报(工学版);1997年03期
10 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
中国重要会议论文全文数据库 前1条
1 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
2 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
3 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
8 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
9 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 程静;基于Agent和Web挖掘的个性化用户模型研究[D];西南师范大学;2002年
2 刘震;基于知识的面向主题查询分析技术研究[D];国防科学技术大学;2002年
3 白艳梅;工艺知识管理系统的研究与开发[D];合肥工业大学;2003年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 韩巍;Web信息智能检索研究[D];合肥工业大学;2004年
6 瞿继合;基于Web的数据挖掘技术研究[D];东北财经大学;2005年
7 李美子;智能查询技术的研究与应用[D];山东科技大学;2005年
8 张建;面向产品设计的汉语自然语言复合句语义理解[D];西安电子科技大学;2006年
9 赵礼彬;基于产品设计领域的自然语言理解的语用研究和实现[D];西安电子科技大学;2007年
10 李俊玲;一种改进的知识表示方法及其模糊推理的研究[D];东北师范大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
3 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
4 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
5 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
6 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
7 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
8 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
9 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
10 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
中国重要会议论文全文数据库 前1条
1 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 孔田野;李万龙;张海鸥;;基于药品本体的信息检索系统研究[J];河北科技大学学报;2008年03期
2 王志勇;耿亦兵;;统计语言模型在文本信息检索中的应用[J];中国索引;2003年01期
3 周智佑;;信息检索系统评价——国内进展述评[J];情报科学;1993年04期
4 毛雅君;信息检索系统的检索效率影响因素研究进展[J];医学情报工作;2001年03期
5 沈志朝,张丽华,李圆;网络环境下的信息检索新技术[J];华中电力;2005年05期
6 杨建林,邓三鸿;信息检索中相关性的维度与度量[J];情报理论与实践;2005年06期
7 付燕宁;金龙飞;王开锋;刘磊;;基于本体的信息检索系统的设计与实现[J];计算机应用研究;2006年11期
8 隆捷;;信息检索可视化研究[J];情报学报;2006年S1期
9 薛蕴;;现代信息检索对图书馆信息服务的影响[J];科技情报开发与经济;2007年06期
10 禹蒲阳;刘艳斌;;基于Web服务架构的数字图书馆信息检索系统的设计与实现[J];邵阳学院学报(自然科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 林耀燊;李文捷;黄绵辉;;信息检索系统中的自然语言处理[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
3 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
6 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
7 陈康;武港山;;基于Ontology的信息检索技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 本报记者 武天敏包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
5 徐莲芝;24团 农企联手打造无公害农产品基地[N];农民日报;2008年
6 李立红;承钢持续推进多项信息化建设与应用[N];中国冶金报;2008年
7 王伟 史忠植;通用与专业[N];计算机世界;2006年
8 通讯员 陈班雄 邹俊 本报记者 于莘明;通向科技巅峰的无名台阶[N];科技日报;2009年
9 张建华;淄博局企业备案实现100%[N];中国国门时报;2008年
10 ;自主创新引领“美的”阔步前行[N];中国高新技术产业导报;2005年
中国博士学位论文全文数据库 前10条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
7 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
8 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
9 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
10 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
2 倪良胜;面向海量实时数据信息检索系统的研究与实现[D];东南大学;2004年
3 赵爽;软件测试在信息检索系统中的应用[D];西安电子科技大学;2008年
4 王宏霞;基于ONTOLOGY的信息检索系统的研究[D];河北工业大学;2005年
5 李勇;关于本体整合的研究及其在供应链管理中的应用[D];天津大学;2005年
6 陈朋;基于网络的集成化信息检索平台研究[D];武汉大学;2005年
7 彭鹏;基于本体的信息检索策略优化研究[D];吉林大学;2007年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 王娜;XML在信息检索系统中的应用及评价研究[D];武汉大学;2005年
10 赵鹏;高校数字图书馆网站建设的研究[D];山西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026