收藏本站
《天津师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于教育领域的垂直搜索引擎的研究与实现

薛萍  
【摘要】:随着Internet的飞速的发展和应用的高普及率,web中的资源也以惊人的速度增长着,它为各个领域的人们带来了巨大而多元化的丰富信息。尤其在教育这一领域也不例外,网络为人们提供了更为丰富和全面的教学资源。人们可以共享这些学习资源,自由地安排学习活动,但是当人们在享受着这些便利的同时,也渐渐发现了一个亟待解决的问题,Google、百度这些通用搜索引擎并不是一个有效地检索工具,其搜出的结果覆盖非常广泛,存在着很多重复和垃圾信息,信息更新速度慢。而垂直搜索引擎的出现,很好的解决这一问题。它是针对某一个行业、某一特定人群或者特定需求的专业搜索引擎,是搜索引擎的细分和延伸,可以为用户提供更为精准更高质量的信息。 本文以教育领域的资源为基础,通过运用扩展Heritrix, Lucene和MVC架构,初步构建出一个检索较为精准的教育垂直搜索引擎。本文主要包括以下几个方面的内容: (1)对开源网络爬虫Heritrix扩展和改进,实现了一个垂直搜索爬虫,满足对特定的教育信息的采集需求; (2)深入研究Lucene以及相关的技术,对其进行扩展,将Lucene成功运用到系统当中,为系统提供一个很好的全文索引/检索服务; (3)实现对网页内容的抽取和处理,专业词库的构建,中文分词器的嵌入,索引建立和优化等。 (4)重点是针对经典排序算法PageRank的不足进行改进。提出了添加权威性和相关性因子的改进算法NPR。在设计好的系统上,进行测试并验证其准确度有所提高。
【学位授予单位】:天津师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
2 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期
3 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
4 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
5 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
6 李广丽;张红斌;;面向计算机教育资源的垂直搜索引擎系统的设计[J];情报理论与实践;2010年05期
7 孙庚;冯艳红;于红;史鹏辉;;一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J];软件导刊;2010年05期
8 王冬;雷景生;李壮;;基于PageRank的页面排序改进算法[J];计算机工程与设计;2008年22期
9 段淮川;胡平;;基于主题特征和时间因子的改进PageRank算法[J];计算机工程与设计;2010年04期
10 王春花;朱俊平;;改进的非平均传递权值PageRank算法[J];计算机工程与设计;2010年10期
中国硕士学位论文全文数据库 前10条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
3 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
4 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
5 王波;基于Lucene的企业搜索引擎[D];北京邮电大学;2009年
6 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
7 王可;基于Nutch的学校信息垂直搜索引擎的研究与实现[D];华东师范大学;2009年
8 杨永毅;基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现[D];重庆大学;2009年
9 杜一平;主题搜索网络爬虫的设计与研究[D];中国科学技术大学;2009年
10 吴翔;基于Lucene的音乐资讯垂直搜索引擎的设计和实现[D];北京交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
2 赵京桥;;中国雅虎经营模式转型原因分析[J];财贸经济;2008年10期
3 刘新阳;;近年我国高校数字化教学资源建设与应用研究分析[J];电化教育研究;2012年03期
4 宋永生;;基于Android的商品比价系统的设计与实现[J];电脑知识与技术;2011年18期
5 潘文富;郭友实;;网络舆情监测技术研究综述[J];福建电脑;2011年08期
6 郭晓霞;王磊;席岩;王晓艳;汪瑛;;基于网络的视频内容检索与盗版追踪溯源研究[J];广播与电视技术;2011年07期
7 梁迪龙;;云计算技术发展分析及其应用探讨[J];电脑知识与技术;2012年19期
8 苗海;张仰森;岳明;;基于聚类算法的垂直搜索引擎技术研究[J];北京信息科技大学学报(自然科学版);2013年01期
9 孟燕;;杭州动漫交易平台建设实践研究——《基于Lucene技术的多媒体互动学习平台的研究与设计》子课题研究[J];计算机光盘软件与应用;2013年01期
10 张雷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];黑龙江科技信息;2011年29期
中国博士学位论文全文数据库 前3条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
3 李鹏;数字图书馆内容管理开源软件应用与评价研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
2 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
3 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
4 陈继祥;基于J2EE的网络考试系统的研究与实现[D];南昌大学;2010年
5 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
6 李承;基于Portal平台的大型跨国企业Intranet设计与优化[D];浙江大学;2011年
7 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
8 陈功照;城市地理信息检索服务研究[D];福建师范大学;2010年
9 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
10 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
【同被引文献】
中国期刊全文数据库 前5条
1 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
2 刘彦平;;关于网络搜索引擎及其优化的讨论[J];电子商务;2011年04期
3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
4 吴美清,沈惠玉;元搜索引擎在解决网络信息检索问题上所具有的优势与不足[J];情报杂志;2004年08期
5 翁勍力;施水才;赵捧未;;基于元搜索的聚类挖掘引擎[J];情报杂志;2007年09期
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
3 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
4 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
5 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
6 陈飞;聚类搜索引擎关键技术的研究[D];北京邮电大学;2011年
7 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
8 孟庆鑫;搜索引擎相关技术研究[D];中国科学技术大学;2011年
9 陈鑫;中文智能搜索引擎[D];四川大学;2004年
10 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 周靖;;浅介几种常用搜索引擎的选择比较[J];办公自动化;2008年16期
2 张俊丽;张帆;;KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用[J];图书与情报;2007年04期
3 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
4 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
5 陆云;;对基于Java的全文检索工具包lucene的索引研究[J];电脑学习;2007年02期
6 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
7 李武装;;基于语义的企业搜索引擎的研究与实现[J];电脑知识与技术(学术交流);2007年08期
8 周珍娟;张字平;陆玲;;基于Lucene2.0的电子文献全文检索系统[J];电脑知识与技术(学术交流);2007年23期
9 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
10 梁永霖;;基于Java的全文检索引擎Lucene的分析与研究[J];电脑知识与技术;2008年20期
中国博士学位论文全文数据库 前2条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
4 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
5 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
6 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
7 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
8 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
9 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
10 柴宝杰;中文自动分词若干技术的研究[D];燕山大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
2 胡永锋;;浅谈垂直搜索引擎的工作原理[J];科学大众(科学教育);2011年06期
3 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
4 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
5 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
6 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
7 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
8 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
9 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
10 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
中国重要会议论文全文数据库 前10条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
4 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
6 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
7 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
8 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 许厚金;垂直搜索引擎及其关键方法研究[D];燕山大学;2010年
3 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
4 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
5 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
6 王延臣;基于高校信息垂直搜索引擎的研究与实现[D];沈阳建筑大学;2012年
7 李亚;垂直搜索引擎的研究与设计[D];武汉理工大学;2010年
8 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
9 吕晓昶;面向交易信息的垂直搜索引擎搜索机制研究与实现[D];东北石油大学;2011年
10 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026