收藏本站
《河北科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自然语言理解的中文搜索引擎

刘海涛  
【摘要】:进入21世纪,“信息爆炸”时代已经到来。海量信息的产生和存储一方面丰富了网络资源给人们的生活带来了极大的便利;另一方面,信息的过滤、筛选成为了人们合理利用信息的重要方面。搜索引擎就是一种帮助人们在浩瀚的网络资源中寻找所需信息的工具。本文对中文搜索引擎的设计和开发进行了深入研究,并以高等艺术教育网站作为平台实现了支持中文自然语言理解的搜索引擎。 为了用户方便的使用搜索引擎寻找互联网上的信息,搜索引擎的使用方法应当更加人性化,并可以为不同领域的非计算机专业人员提供便利。人们越来越希望可以使用人类所掌握、熟悉的自然语言操控计算机程序。带有自然语言理解的搜索引擎自然成为了一个重要的研究方向。本文所研究目的就是使得搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。 本文使用Lucene作为研究平台,在此基础上开发出带有自然语言理解的高等艺术教育网站的搜索引擎。中文文本的特点是没有空格作为词汇与词汇之间的间隔,因此本文采用了词库匹配的方法对自然语言文本进新了分词。在词典的设计上,我们采用了以首字为键的散列表结构。在进行查询结果的排序时,将用户输入的文本和现有的文本都映射成一个n维的向量,然后在两个向量之间定义了相似性的度量方法,并按照该方法对搜索引擎的返回结果进行排序。在实现时,网站的整体架构使用Java语言平台,但是其中也有一些功能模块以C++语言编写的DLL形式实现。因此还对Java平台调用DLL的方式方法进行了研究。 最后,我们对该搜索引擎的性能进行了实验性的验证,最终的试验结果表明该设计思路是可行的,实际应用是有效的,它有效地提高了搜索引擎检索出的信息的质量以及显著增强了搜索引擎的交互能力。
【学位授予单位】:河北科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 ;中文搜索引擎浅析[J];网络与信息;1999年08期
2 刘立新;;搜索引擎——互联网前进的动力引擎[J];互联网天地;2004年10期
3 ;中文搜索引擎的比较研究[J];软件世界;2000年10期
4 ;每周e人[J];每周电脑报;2000年21期
5 吴凤玉,柳家英;中文搜索引擎检索语言研究[J];津图学刊;2002年03期
6 王立群;;搜索比武论输赢[J];IT时代周刊;2003年18期
7 王来俭;;网站推荐之狂搜网[J];电脑知识与技术(学术交流);2006年31期
8 ;2005年搜索引擎发展及未来展望[J];计算机与网络;2006年02期
9 林军;;中文搜索的江湖水很深[J];IT时代周刊;2009年14期
10 刘菲菲;;谁比谷歌更好用? 五大中文搜索引擎横评[J];网络与信息;2010年05期
中国重要会议论文全文数据库 前10条
1 苗传江;;HNC理论的句类[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 康海燕;樊孝忠;马礼;;自然语言理解的检索技术在数字图书馆中的应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 郭晨;;汉语语音技术[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈晓红;何晓洁;李一智;;自然语言理解在智能决策支持系统人机接口中的应用[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
5 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 车万翔;刘挺;李生;;语义角色标注的方法与挑战[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 车万翔;刘挺;李生;;自动浅层语义分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 乐明;冯志伟;;篇章修辞结构树库概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 ;HNC(概念层次网络)理论[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国重要报纸全文数据库 前10条
1 上海 朱玉;为IE定制中文搜索引擎[N];电子报;2001年
2 网易公司联合首席技术执行官 许良杰;浅谈新一代中文搜索引擎[N];国际金融报;2000年
3 雨田;百度推出中文搜索引擎[N];通信产业报;2000年
4 记者 孙进;谷歌退出等待“三巨头”决策[N];第一财经日报;2010年
5 李斌;新型中文搜索引擎面世[N];福建日报;2000年
6 孙爽 清华大学经济外交研究中心;Google退出风波的背后[N];中国社会科学报;2010年
7 ;要做中文搜索引擎领航者[N];广州日报;2003年
8 张晓莺;超九成受访企业称或增加搜索营销投入[N];江苏科技报;2009年
9 北京 朱艳;中文搜索引擎大比拼[N];中国电脑教育报;2000年
10 本报记者 李延生;“我们离破产只有30天”[N];中国企业报;2001年
中国博士学位论文全文数据库 前10条
1 刘根辉;计算语用学基础理论及其应用研究[D];华中科技大学;2005年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
4 杨芸;汉语隐喻识别与解释计算模型研究[D];厦门大学;2008年
5 许中卫;基于双向搜索的ILP算法构建汉语语义自动切分系统[D];安徽大学;2006年
6 朱宏辉;基于知识驱动的拟人智能控制系统若干关键技术研究[D];武汉理工大学;2006年
7 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
8 段鹰;复杂生产系统决策若干关键技术研究[D];重庆大学;2009年
9 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
10 王朝霞;专利知识获取及其支持概念创新设计的方法研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
2 蔡霞;基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D];浙江工业大学;2003年
3 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年
4 王会彩;面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用[D];西安电子科技大学;2010年
5 焦海涛;机械设计领域自然语言理解知识库构建研究[D];西安电子科技大学;2004年
6 杨俊梅;产品设计中含有特殊动词复合句的自然语言理解的研究与实现[D];西安电子科技大学;2005年
7 李海林;自然语言理解及其在机务信息规范化中的应用[D];南京航空航天大学;2004年
8 亿珍珍;面向产品设计的自然语言理解语义分析研究[D];西安电子科技大学;2004年
9 赵亮;自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年
10 胡树楷;机械产品设计中的自然语言理解复合句语义分析[D];西安电子科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026