收藏本站
《北京邮电大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

旅游信息垂直搜索系统的设计与实现

张慧  
【摘要】: 随着internet的迅速发展,网络资源日益丰富,传统的搜索引擎技术不加区分的从网络上收集网页,产生了大量用户不需要的无关信息,大大影响了用户的使用,为了更精确更迅速的获得用户关心的相关领域的信息,垂直搜索引擎技术应运而生。垂直搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。 Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎。它使用Lucene作为索引和检索的模块,其工作流程包括网页搜集,预处理和检索模块,具有与商用搜索引擎相同的工作流程,且其各功能模块相对独立,通过改造Nutch的相关功能模块,可以迅速搭建一个垂直搜索引擎。 本文的工作目标是构建一个基于垂直搜索引擎技术的旅游信息搜索网站,搜索引擎部分是一个中文主题搜索引擎,因此,中文处理的问题与主题相关性的问题是首要解决的重要问题。本文采用Nutch来构建基本搜索引擎架构,并修改了Nutch的两个重要模块,网页搜集模块和中文分词模块,使其能够适应垂直搜索的使用。 在此基础上,本文首先介绍了通用搜索引擎与垂直搜索引擎的不同,讨论了通用搜索引擎的核心技术,以及垂直搜索引擎的技术特点,接着介绍了Nutch的工作原理,在搜索模块中,本文采用了shark search算法实现主题相关网页的抓取;网页抓取下来后,使用向量空间模型进行主题相关度判定,将相关度低于一定阈值的URL去除;使用在中文分词模块中,本文改进了Nutch基于单字切分的分词方式,设计了一种新的词典机制,并将一种新的分词算法引入到分词模块中。 随后,本文讨论了旅游信息搜索引擎的总体设计过程,包括手机客户端和web搜索引擎的实现过程。设计过程重点论述了需求分析、手机客户端和网站的功能规划和总体结构、数据库设计等内容。 最后,对本文工作进行了总结,提出了今后的工作方向,并对垂直搜索引擎的技术发展方向做出了展望。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 赵蓉英;陈必坤;;基于Nutch的图情博客搜索引擎的设计与实现[J];情报科学;2012年04期
中国博士学位论文全文数据库 前1条
1 舒永钢;WebGIS旅游信息搜索功用研究及应用[D];浙江工商大学;2012年
中国硕士学位论文全文数据库 前6条
1 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
2 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
3 黄书娟;基于Web的垂直搜索引擎的研究[D];武汉理工大学;2012年
4 王俊;面向房产领域的垂直搜索引擎研究与实现[D];南昌大学;2012年
5 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
6 谢红伟;基于Nutch的聚类搜索引擎的研究与实现[D];华南理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
3 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
4 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
5 胡蓉,周经野;搜索引擎的发展与个性化技术研究[J];宁波职业技术学院学报;2005年02期
6 沈红芳;互联网搜索引擎及其功能优化模型[J];情报科学;2000年01期
7 包金龙;基于向量空间模型的信息检索系统的设计[J];情报杂志;2005年07期
8 李世明;赵恒永;李世友;;专题搜索引擎中信息过滤的研究与实现[J];计算机工程与设计;2006年08期
9 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
10 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
3 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
4 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
7 赵耀红;;基于向量空间模型的信息检索系统的研究与实现[J];长春大学学报;2009年08期
8 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
9 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期
10 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
中国重要会议论文全文数据库 前10条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
3 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年
4 吕凝;基于内容的视频数据库多模式检索方法研究[D];吉林大学;2005年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
7 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
8 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
6 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
7 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
8 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 解杼,张捷,刘泽华,余颖,郭来喜;旅游者入游感知距离与旅游空间行为研究——以江西省龙虎山为例[J];安徽师范大学学报(自然科学版);2003年04期
2 高琴;;HITS算法探究[J];信息安全与技术;2012年02期
3 文谨;宫辉力;;自助旅游者对网络旅游信息的需求研究[J];北京社会科学;2009年04期
4 唐亮;张结魁;徐建华;;网络消费者信息搜寻行为研究[J];图书与情报;2008年02期
5 陈晓宁;马亚飞;谢孟利;;基于NewMap API的Web地图服务系统应用[J];测绘标准化;2011年03期
6 杨阳;朱翊;刘纪平;;网络电子地图的设计与应用[J];测绘科学;2007年S1期
7 吴增红;陈毓芬;;河南省旅游地图网站的设计与实现[J];测绘科学;2008年01期
8 郭亮;龚建华;孙麇;杨卫军;林国添;;基于ArcGIS Server与AJAX的WebGIS设计与实现[J];测绘科学;2011年03期
9 吴晓佳,李卫红;基于WebGIS技术的旅游自助地理信息系统[J];城市勘测;2004年05期
10 马张宝,万剑华,刘娜;基于WebGIS和3D GIS的集成研究[J];测绘与空间地理信息;2005年03期
中国博士学位论文全文数据库 前10条
1 李东;在线旅行服务商业模式研究[D];华侨大学;2011年
2 王晓峰;基于TMIS和TGIS比较的陕西旅游资源决策支持系统研究[D];陕西师范大学;2005年
3 方针;用户信息技术接受的影响因素模型与实证研究[D];复旦大学;2005年
4 张霞;地理信息服务组合与空间分析服务研究[D];武汉大学;2004年
5 吴功和;分布式地理信息服务研究与实践[D];解放军信息工程大学;2006年
6 马庆勋;网络空间实时信息处理关键技术研究与实现[D];中国地质大学(北京);2007年
7 李如仁;公众参与式地理信息系统的理论与实践[D];辽宁工程技术大学;2007年
8 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
9 周翀;搜索引擎中文档聚类方法研究[D];华中科技大学;2009年
10 朱阁;移动商务消费者决策行为中的接受与转移研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 李彦达;基于上下文感知应用的移动式旅游服务研究[D];中国海洋大学;2010年
2 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
3 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
4 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
5 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
6 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
7 戚春超;Deep Web数据源发现与分类研究[D];南京信息工程大学;2011年
8 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年
9 何松;我国移动商务消费者初始信任影响因素研究[D];沈阳理工大学;2011年
10 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
【二级引证文献】
中国硕士学位论文全文数据库 前6条
1 邵蕾;基于Lucene的教学资源垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
2 张敏;基于WEB的学科资源垂直搜索引擎的设计与实现[D];华中师范大学;2012年
3 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
4 徐兴元;Web时空数据挖掘及其地图信息服务[D];华东师范大学;2013年
5 张昭;基于WebGIS的食品安全监管系统设计与实现[D];南昌航空大学;2013年
6 韩剑磊;昆明城市游憩商业区(RBD)旅游体验研究[D];云南财经大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
3 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
4 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
5 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 徐德智,吴敏,陆文彦;基于Agent的专业搜索引擎的研究和构造[J];计算机工程;2002年10期
8 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
9 陈滢,徐宏炳,王能斌;WebCORD:协作式Web资源发现系统模型[J];计算机学报;1998年04期
10 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
【相似文献】
中国期刊全文数据库 前10条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
中国重要会议论文全文数据库 前3条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026