收藏本站
《西安电子科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎的研究与实现

李海升  
【摘要】:随着互联网信启、量的爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,而用户对获取更加准确、更加详细的专业信息的需求却在不断增长,在这种情况下垂直搜索引擎应运而生。 垂直搜索引擎是指针对某一个领域、某一个行业所进行的专门检索,是搜索引擎的细分和延伸,这些搜索相对于通用搜索引擎来讲,具有搜索深入、信息更加准确、信息更新快的特点。 本文从理论和实践两个方面对垂直搜索引擎进行了研究,提出了基于网页内容和基于网页结构相结合的URL选取算法,在这个基础上设计并实现了一个垂直搜索引擎原型系统。 本文首先分析了通用搜索引擎发展的不足,指出垂直搜索引擎研究的必要性。接着,探讨了垂直搜索引擎的结构,对垂直搜索引擎的两个重要组成部分即信息采集和索引进行了深入分析。 本文然后详细研究了垂直搜索引擎的URL选取技术,在对已有的URL选取技术进行详细分析的基础上,针对垂直搜索引擎的特点及要求提出了基于网页内容和基于网页结构相结合的DKWT URL选取算法。该算法根据网页的垂直距离、网页的有限内容和网页的链接结构三方面的综合分析得到该网页与主题的相关度,然后再根据此相关度来决定该网页内容是否被抓取。该算法还可以预先估计网页中子链接与主题的相关度。 最后,在所提出的DKWT算法的基础上,本文设计并实现了一个垂直搜索引擎原型系统。通过DKWT URL选取算法与基于网页内容的URL选取算法和基于网页结构的URL选取算法的比较分析,证明了采用DKWT算法的垂直搜索引擎系统能快速有效地获得与主题相关的信息。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前3条
1 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
2 朱健琛;个性化新闻搜索引擎的研究与设计[D];电子科技大学;2012年
3 朱敏;基于Lucene的垂直搜索引擎的研究与实现[D];成都理工大学;2012年
【参考文献】
中国期刊全文数据库 前3条
1 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
中国硕士学位论文全文数据库 前1条
1 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
3 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
4 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
5 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
6 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
7 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
8 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
9 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
10 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
中国重要会议论文全文数据库 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
3 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
2 王迈;语言形式化原理[D];上海外国语大学;2011年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 张蕾;概念结构及其应用[D];西北工业大学;2001年
5 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
7 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
8 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
9 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
10 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 霍林;王力;黄俊文;潘英花;;一种结合同义词典和词对共现距离的查询扩展方法[J];广西大学学报(自然科学版);2010年02期
3 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
4 李剑;李金厚;;一种基于知网的概念相似度计算方法[J];工业控制计算机;2011年04期
5 吴汉荣;曾勇军;;Simply Hired:职位搜索新天地[J];电脑与电信;2009年03期
6 单丽莉;刘秉权;孙承杰;;文本分类中特征选择方法的比较与改进[J];哈尔滨工业大学学报;2011年S1期
7 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
9 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期
10 林鸿飞;基于Web的信息过滤机制[J];计算机工程与应用;2002年02期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
2 董平;关联特征提取与贝叶斯网络的文本分类研究[D];华南理工大学;2011年
3 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年
4 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年
5 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
6 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
7 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
8 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年
9 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
10 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
【二级参考文献】
中国期刊全文数据库 前5条
1 解冲锋,李星;并行式Meta Search系统的设计与实现[J];计算机工程与应用;1999年02期
2 解冲锋,李星,党梅梅;Meta Search系统中的数据缓冲机制[J];计算机工程;1999年10期
3 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
4 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
5 张俭恭,陈定权,吴振新;关于搜索引擎与元搜索引擎的讨论[J];现代图书情报技术;2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
2 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
3 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
4 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
5 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
6 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
7 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
8 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
9 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
10 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026