收藏本站
《安徽理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Java的垂直搜索引擎的设计与实现

张书江  
【摘要】: 互联网的信息量呈爆炸趋势增长,增强了人们对搜索技术的依赖性。搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。但随着网络技术的飞速发展,获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。 本文首先阐述了搜索引擎的发展历史,搜索引擎内部结构和实现原理。在分析了目前通用搜索引擎存在的问题后,进而引出垂直搜索引擎的概念,指出垂直搜索引擎的自身特点和发展前景。对现有的开源项目Heritrix和Lucene的内部功能架构进行了分析论述,在理解其设计思想的基础上进行扩展利用,探索性的提出了利用现有开源代码设计一个手机产品垂直搜索引擎的设想和实现思路。结合程序代码说明,一步一步地完成对指定网页的抓取、产品参数信息的抽取、生成词库、建立索引和将信息保存到数据库。最后建立了Web查询界面,完成对整个系统的构建工作。系统最终实现了概要设计中所有预定功能。本文的设计思路和实现方法,无论是对研究垂直搜索技术,还是构建一个实用的垂直搜索引擎都有一定的参考和借鉴价值。
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.52

【引证文献】
中国期刊全文数据库 前2条
1 杨伟超;刘阳;李淑霞;;基于搜索引擎的一站式检索平台设计与实现[J];计算机与现代化;2012年11期
2 刘阳;杨伟超;李淑霞;;基于Sphinx的资源整合系统平台的设计与实现[J];信息技术;2012年11期
中国硕士学位论文全文数据库 前9条
1 陈继祥;基于J2EE的网络考试系统的研究与实现[D];南昌大学;2010年
2 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年
3 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
4 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
5 文小燕;基于Petri网建模的搜索引擎设计与实现[D];西安建筑科技大学;2011年
6 汪明强;基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现[D];河北工业大学;2011年
7 苏菲菲;精准营销中观点爬取与需求匹配技术的研究与实现[D];东北财经大学;2011年
8 苏希乐;面向手机信息的垂直搜索引擎[D];西安工业大学;2012年
9 张晓雷;面向Web挖掘的主题网络爬虫的研究与实现[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
2 张南平;程鸣;;基于模式识别视频搜索技术的研究[J];福建电脑;2007年08期
3 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
4 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
5 冯天飞,施法中,王瑛;基于Web的新闻自动发布系统的设计和实现[J];计算机应用;2001年03期
6 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
7 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期
8 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
9 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
10 赵志荣;WWW搜索引擎的发展方向:专题性搜索引擎[J];情报杂志;2001年05期
中国硕士学位论文全文数据库 前1条
1 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
3 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 师小庆;袁志;王学成;;基于Web的学生信息检索系统设计[J];才智;2011年34期
6 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
7 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
8 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
9 田苗苗;许建潮;汪津;丁桂英;;基于遗传算法的Web信息自动标引研究[J];吉林大学学报(信息科学版);2006年05期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
4 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
5 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
9 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
10 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 肖毅;体育赛事背景广告曝光参数虚拟预测研究[D];上海体育学院;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
10 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 许正良,欧志广,徐颖;顾客服务模式选择及顾客服务组织匹配问题的研究[J];商业研究;2005年15期
4 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
5 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
6 祝伟华;张正龙;刘斌斌;;基于全文检索工具包Lucene的排序技术[J];重庆工学院学报(自然科学版);2008年12期
7 陈泽琳;张庆彪;;基于JAVA的考试系统中题库设计及组卷算法[J];重庆理工大学学报(自然科学版);2010年03期
8 李敏;黄凯;;一个多线程全文检索系统的构建[J];长江大学学报(自然科学版)理工卷;2010年03期
9 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期
10 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
中国博士学位论文全文数据库 前2条
1 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
2 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
2 周君;Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2009年
3 刘骞;面向美术教育应用领域的搜索引擎研究[D];云南艺术学院;2011年
4 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
5 姜卯生;数据挖掘中基于贝叶斯技术的分类问题的研究[D];合肥工业大学;2004年
6 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
7 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
8 庞博;基于代理结构的Web个性化推荐技术的研究与实现[D];东北大学;2005年
9 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
10 刘强;WEB服务及XML安全[D];四川大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前3条
1 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
2 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
3 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
3 孙莉苹,张永奎;网上信息检索中BOT站点爬行方法[J];电脑开发与应用;2001年10期
4 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
5 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
6 陈福民,张晔,刘玉莎,张志浩,冯伟国;基于Web技术的新闻制作与管理信息系统[J];计算机工程与应用;1999年05期
7 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
8 陈新明,钟涛,万钧,吴杰,张世永;WWW搜索引擎的数据采集技术[J];计算机工程与应用;2002年07期
9 陈敏,曹阳,刘翀;一种WWW搜索引擎的设计与实现[J];计算机工程与应用;2002年07期
10 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
中国硕士学位论文全文数据库 前3条
1 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
2 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
3 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
2 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
3 喻金平;谭鸣;夏小云;;基于Lucene技术的垂直搜索引擎的研究[J];软件导刊;2008年03期
4 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
5 蓝永健;;基于Lucene的校园网垂直搜索引擎的设计与实现[J];广东教育学院学报;2009年03期
6 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
7 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
8 张君;李保秀;;垂直搜索引擎中网络蜘蛛的设计[J];福建电脑;2008年04期
9 陈丽萍;;一种垂直搜索引擎主题相关性改进算法[J];电脑知识与技术;2009年29期
10 霍永;罗钊;;垂直搜索引擎浅析[J];广西警官高等专科学校学报;2009年04期
中国重要会议论文全文数据库 前10条
1 汪沛;;Isolex股市预测系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
5 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
8 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
9 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
2 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
6 于发修;寻找搜索的技巧[N];中国计算机报;2001年
7 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
8 ;搜索引擎为自由信息导航[N];中国电脑教育报;2005年
9 姜姝;娱乐至死 肉搜成疯[N];中国电脑教育报;2008年
10 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
中国博士学位论文全文数据库 前7条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
7 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年
2 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
3 李亮;基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D];中国地质大学(北京);2010年
4 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
5 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
6 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
7 黄荣游;基于Lucene的网络文学垂直搜索引擎的研究与实现[D];浙江工业大学;2011年
8 朱敏;基于Lucene的垂直搜索引擎的研究与实现[D];成都理工大学;2012年
9 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
10 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026