收藏本站
《西北工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自动分词的企业文档搜索引擎设计与实现

陈海波  
【摘要】:随着计算机和网络的普及,越来越多的企业利用计算机对文档进行处理,在企业的运营过程中必然会产生大量的电子文档。如何在大量的电子文档中迅速而准确的检索出用户所需要的信息成为摆在人们面前的一大难题,为了解决这一问题本文设计了一个应用于企业文档检索的中英文文档搜索引擎系统。 搜索引擎的设计涉及到中文分词、数据收集、索引组织、检索结果排序、用户行为分析等关键技术。从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成。搜索引擎首先通过信息采集器采集文档数据,然后通过索引器对采集数据进行分析,并建立索引。检索器负责接受用户查询请求,通过索引找到所有相关文档,排序后返回给用户。 首先,本文对中文搜索引擎的基础技术--中文分词技术进行了介绍,并对中文自动分词的实现方法进行了深入的研究。综合各种分词方法,实现了一种适用于企业文档检索的中文自动分词系统;同时本文对搜索引擎的关键技术:索引技术和检索模型进行了深入探讨,提出了一种可用于数据库存储的双向索引结构,有效降低了索引组织的复杂度,通过结合布尔逻辑模型和向量空间模型实现了对检索结果文档的排序。 然后,在对通用Web搜索引擎的结构和原理进行分析的基础上,结合企业文档检索的特点,引入文件监控技术,提出了一个企业文档搜索引擎系统的架构。 最后,采用VC开发工具,在windows环境中实现了这个企业文档搜索引擎。
【学位授予单位】:西北工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 方跃胜;董辉;姚宏亮;;多格式文档搜索引擎索引系统设计与实现[J];长江大学学报(自然科学版);2012年07期
2 方跃胜;姚宏亮;;法律搜索引擎索引系统同步模块的设计与实现[J];计算机技术与发展;2011年03期
中国硕士学位论文全文数据库 前6条
1 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
2 夏青松;基于改进哈希算法的快速KNN文本分类方法[D];安徽大学;2012年
3 张佳培;基于子主题划分和句子特征的中文文档自动文摘研究[D];重庆大学;2012年
4 薛亮;基于SVM的中文文本分类系统的设计与实现[D];重庆大学;2012年
5 申林;互联网用户行为信息的数据挖掘技术研究[D];黑龙江大学;2012年
6 王玉超;深度搜索内网资源的研究与实现[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
3 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
4 邢永康;马少平;;信息检索的概率模型[J];计算机科学;2003年08期
5 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
6 朱承,曹泽文,张维明;知识库系统建模框架的发展与现状[J];计算机工程;2002年08期
7 王胜明,潘卫华,孙淑淇;一种搜索引擎的新体系结构[J];计算机工程;2003年11期
8 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
9 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
10 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
中国硕士学位论文全文数据库 前6条
1 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
2 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
3 陈鑫;中文智能搜索引擎[D];四川大学;2004年
4 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
5 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
6 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 吴文斗;周兵;杨林楠;;基于XML智能农业专家咨询系统的设计与实现[J];安徽农业科学;2009年11期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 马婧;Ontology建模及其ITS知识库设计[J];安阳师范学院学报;2004年02期
4 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
5 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
8 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
9 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
10 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
中国重要会议论文全文数据库 前10条
1 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘煦赞;;复合图书馆参考咨询服务的若干问题[A];福建省图书馆学会2006年学术年会论文集[C];2006年
3 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
4 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
5 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
9 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
10 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 经有国;面向消费类机电产品大规模定制的客户需求信息交互式获取及处理方法[D];重庆大学;2011年
5 曾武灵;滨海生态旅游区游客重游意愿形成机制研究[D];大连理工大学;2011年
6 魏圆圆;基于本体论的农业知识建模及推理研究[D];中国科学技术大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
9 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
10 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
5 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
6 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
7 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
8 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
9 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
10 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 曲卫华;王群;;搜索引擎原理介绍与分析[J];电脑知识与技术;2006年35期
5 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
6 胡风华;刘冰;;基于知识库系统的智能搜索引擎研究[J];电脑知识与技术;2009年11期
7 徐辉;;基于IFilter的非文本文件中抽取文本的关键技术[J];电脑知识与技术;2011年27期
8 曲成义;电子政务安全保障体系探索[J];信息技术与标准化;2003年11期
9 刘怀宇,李伟琴;浅谈访问控制技术[J];电子展望与决策;1999年01期
10 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
中国博士学位论文全文数据库 前8条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
2 匡鹏飞;时间词语前后分句共现状态之研究[D];华中师范大学;2006年
3 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
4 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
5 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
6 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
7 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 曾一平;中文文本情感分类的研究[D];北京交通大学;2011年
2 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
3 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
4 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
5 金艳伟;基于马尔可夫随机场的蒙古文信息检索模型研究[D];内蒙古大学;2011年
6 柯丽;基于频繁共现熵的跨语言网页自动分类研究[D];江西师范大学;2011年
7 贺爱香;决策树在应用型本科高校就业管理中的应用研究[D];安徽大学;2011年
8 姜兰池;基于内容的图像检索关键技术研究[D];杭州电子科技大学;2009年
9 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
10 周城;面向中文Web评论的情感分析技术研究[D];国防科学技术大学;2011年
【二级引证文献】
中国期刊全文数据库 前1条
1 赵峰;;基于文档搜索的油田知识库系统[J];油气田地面工程;2013年01期
中国硕士学位论文全文数据库 前2条
1 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年
2 郑丽洁;小文本语料库在Hadoop平台上的存储策略研究[D];华中师范大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
3 李广原,陈丹;文本信息检索技术[J];广西科学院学报;2001年02期
4 赖宁,何瑛秀;Internet中文搜索引擎刍议[J];高校图书馆工作;1999年04期
5 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
6 骆斌,费翔林;多线程技术的研究与应用[J];计算机研究与发展;2000年04期
7 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
8 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
9 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
10 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
【相似文献】
中国期刊全文数据库 前10条
1 徐进鸿,邵品洪,李明霞;情报检索数学模型及若干技术进展[J];现代图书情报技术;1990年03期
2 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
3 王彩荣;汉语自动分词专家系统的设计与实现[J];微处理机;2004年03期
4 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
5 王彩荣,李晓毅,黄玉基;汉语自动分词系统的评价[J];微处理机;2003年05期
6 徐华中;徐刚;;一种新的汉语自动分词算法的研究和应用[J];计算机与数字工程;2006年02期
7 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
8 黄昌宁;自动分词[J];语言文字应用;1997年01期
9 王巍;;基于Perl的汉语自动分词算法研究[J];中州大学学报;2007年01期
10 罗洋;;汉语自动分词方法的综述[J];科技信息;2009年07期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
5 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
6 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前5条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
3 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
4 田梦;软件篇软件只是工具[N];计算机世界;2007年
5 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国博士学位论文全文数据库 前2条
1 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
2 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
3 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
4 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
7 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
8 张敏;基于Internet的个性化信息检索关键技术研究[D];燕山大学;2006年
9 陈云;基于受限汉语和模块组合的自动程序设计研究[D];重庆大学;2008年
10 付蕾;知识元标引系统的设计与实现[D];华中师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026