收藏本站
《江南大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎的研究与实现

白玉昭  
【摘要】:伴随着因特网上的信息急剧增长,通用搜索引擎已经难以达到用户“专、精、深”的查询需求了,垂直搜索引擎在这种情况下应运而生。所谓的垂直搜索引擎是指在某一个领域或者在某一个特定的行业中进行更加专业的检索,垂直搜索引擎可以看作是通用搜索引擎的细分和延伸。与通用搜索引擎相比来说,它具有搜索更深入、信息更加准确、信息更新快等特点。 本文的研究是围绕着垂直搜索引擎的各个技术要点展开的,主要包括以下几个方面的内容: (1)垂直搜索引擎技术概述。该部分的内容首先从实现方式和检索粒度入手介绍了不同种类的垂直搜索引擎,并提出了评价指标;然后对垂直搜索中最重要的三项技术(主题爬虫、索引技术、关键词检索技术)进行了介绍;最后对垂直搜索中其他的辅助技术,如中文分词、页面净化等相关技术点进行了阐述。 (2)主题爬虫的研究和实现。主题爬虫的主要目标是尽可能高效的抓取网络中与主题相关的资源。在对已有的主题爬虫学习和研究的基础上,本文提出了一种基于概率模型的主题爬虫,该主题爬虫可以良好的解决“主题漂移”和“隧道穿越”这两大问题,并能在此基础上保证网页的质量。最后通过比较全面的对比试验,表明了基于概率模型的主题爬虫的可行性。 (3)查询扩展技术的研究。查询扩展技术可以良好的解决基于关键词匹配查询技术的不足,提高查全率和查准率。本文提出了一种基于同义词词林的局部查询扩展方法,该方法可以克服单纯的局部扩展方法在某下情况下查询效果很差的问题。最后通过实验对比了基于关键词、单纯的局部扩展、基于同义词词林的局部扩展这三种方法的查询效果,表明了基于同义词词林的局部查询扩展方法的有效性。 (4)垂直搜索引擎原型系统的实现。该部分内容首先介绍了全文检索工具包Lucene的相关技术,研究了Lucene的系统结构、索引机制以及搜索机制和评分机制;然后提出了基于Lucene构建的垂直搜索引擎系统VSE的总体框架,并结合VSE系统的具体代码,分别对其包含的主要功能模块进行了讲解和阐述。
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
2 刘博卿;;基于军事工程兵的垂直搜索引擎研究[J];科技创新导报;2011年18期
3 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
4 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
5 黄名选;马瑞兴;兰慧红;;面向查询扩展的特征词频繁项集挖掘算法[J];现代图书情报技术;2011年04期
6 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
7 王水利;黄广君;霍亚格;;基于语义分析的查询扩展方法[J];计算机工程;2011年16期
8 黄名选;朱家安;陈燕红;;面向查询扩展的词间正负关联规则挖掘算法[J];计算机工程与应用;2011年26期
9 郭锐;;新型垂直育儿搜索引擎“智能育儿通”的研究与实现[J];天津科技;2011年03期
10 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
中国重要会议论文全文数据库 前10条
1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
2 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
3 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年
8 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
2 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
3 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
9 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
中国博士学位论文全文数据库 前10条
1 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
5 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
6 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
2 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
6 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
9 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026