收藏本站
《武汉科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

站点搜索引擎的研究与实现

胡晓翠  
【摘要】: 伴随着信息化进程的加快,越来越多的企业构建了自己的Web站点,通过站点向用户提供产品和服务信息。但伴随的问题是,随着Web信息资源的迅速增加,越来越丰富的信息呈现在用户面前,使得用户越来越难以获取其需要的资源,而仅仅通过浏览是不能高效获取信息的。站点搜索引擎可以很好地解决这个问题。本课题就是通过研究搜索引擎及其技术,构建一个面向Web站点的搜索引擎。 本文首先介绍了站点搜索引擎现状,提出了站点搜索引擎研究的必要性。然后介绍了搜索引擎的分类和工作原理,并从信息搜集、信息处理和信息检索这三个组成部分分析和研究了搜索引擎的主要实现技术。在此基础之上对站点搜索引擎系统进行分析和设计,利用bot和Lucene工具包实现了该站点搜索引擎。 该系统采用多线程技术实现了并行的信息采集程序;用倒排索引技术实现了Web信息索引库;最终向用户提供了文本、音乐和图片三类资源的检索服务。为了得到更优的页面检索结果,本系统提出了一种基于页面内容和URL链接深度相结合的页面优先度排序算法,并通过改进Lucene的基本排序算法加以实现。
【学位授予单位】:武汉科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.52

【引证文献】
中国硕士学位论文全文数据库 前2条
1 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
2 张芳;校园网搜索引擎中网页去重技术的研究[D];内蒙古科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
2 一方;;搜索引擎技术解析[J];互联网天地;2004年10期
3 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
4 罗永莲;张永奎;;基于发布时间的新闻网页去重方法研究[J];计算机工程与应用;2007年06期
5 周登朋;谢康林;;Lucene搜索引擎[J];计算机工程;2007年18期
6 刘巍巍,徐成,李仁发;嵌入式数据库BerkeleyDB的原理与应用[J];科学技术与工程;2005年02期
7 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
8 吴丽华;罗云锋;张宏斌;;信息检索模型及相关性算法的研究[J];情报杂志;2006年12期
9 贾丽柯;;基于校园网的搜索引擎排序算法研究[J];商丘职业技术学院学报;2008年02期
10 方崴;;国内图书馆网站的现状与优化[J];图书馆杂志;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
2 田预;;谈新升格院校图书馆迎接评估工作[J];鞍山师范学院学报;2006年04期
3 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
4 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
5 曾庆祥;廖建新;安宝贵;朱春梅;于川;;基于Lucene算法的移动终端资源搜索引擎研究与设计[J];北京工商大学学报(自然科学版);2008年05期
6 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
7 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
8 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
9 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
10 庄致;郭胜;;嵌入式数据库在桥梁实时监测系统中的应用[J];重庆交通学院学报;2007年03期
中国重要会议论文全文数据库 前10条
1 王海宽;费敏锐;黄丹青;;嵌入式技术推动工控网络化发展及应用[A];自主创新与持续增长第十一届中国科协年会论文集(2)[C];2009年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 叶卫东;张晶晶;;嵌入式数据库Berkeley DB在桥梁健康监测系统中的应用[A];2007中国控制与决策学术年会论文集[C];2007年
4 冯化强;万麟瑞;;嵌入式数据库(EDB)任务执行器模型及其查询优化算法研究[A];第四届中国智能计算大会论文集[C];2010年
5 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
6 冯化强;万麟瑞;;嵌入式数据库(EDB)任务执行器及优化算法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 祁丹丹;许耀锦;;嵌入式数据库Berkeley DB在水下机器人数据管理中的应用[A];2011年全国通信安全学术会议论文集[C];2011年
8 宋双;王立松;;一种嵌入式数据库内存管理设计与实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
9 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
10 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李琨;监控技术与涌现性分析在煤矿瓦斯灾害防治中的应用研究[D];昆明理工大学;2009年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
6 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
8 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
9 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年
10 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
6 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
7 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
8 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
9 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
10 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
3 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
4 邵晶晶;冯波;李波;;PageRank排名技术的新算法[J];华中师范大学学报(自然科学版);2008年04期
5 Dino Esposito;罗小平;;小议JavaScript库——Dojo、jQuery和PrototypeJS的比较[J];程序员;2008年08期
6 吴鸿汉;瞿裕忠;李慧颖;;基于RDF句子的语义网文档搜索[J];计算机研究与发展;2010年02期
7 白广慧,连浩,刘悦,程学旗;网页查重技术在企业数据仓库中的应用[J];计算机应用;2005年07期
8 陈锦言;孙济洲;张亚平;;基于傅立叶变换的网页去重算法[J];计算机应用;2008年04期
9 董守斌;;木棉:企业级校园网搜索引擎[J];中国教育网络;2007年06期
10 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
中国重要会议论文全文数据库 前5条
1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前2条
1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
2 石磊;基于数据的学习:埃尔米特算法与黎曼流形上的法向量估计[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
2 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
3 唐蓉;搜索引擎重复网页检测技术研究[D];重庆理工大学;2011年
4 刘洋;聚合通信算法测试分析与理论研究[D];中国科学院研究生院(软件研究所);2005年
5 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
6 王慧;基于URP的校园信息化建设的研究[D];河海大学;2006年
7 黄志春;基于AJAX技术的环保监控系统[D];浙江大学;2006年
8 樊非;基于J2EE架构的银行管理监控系统研究[D];浙江大学;2006年
9 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
10 李四达;全文索引引擎Lucene的研究及其手机中的应用实现[D];华北电力大学(北京);2007年
【二级引证文献】
中国硕士学位论文全文数据库 前5条
1 王军;数据归档与信息检索系统的研究与实现[D];太原理工大学;2012年
2 赵长欣;基于数字版权唯一标识符解析系统的设计与实现[D];北方工业大学;2012年
3 王剑森;基于IMS的多媒体彩铃管理系统的设计与实现[D];北京邮电大学;2013年
4 周子琼;大型企业非结构化数据检索系统设计与实现[D];大连理工大学;2012年
5 杨雅琴;基于组合分类策略的中英文情感分析系统研究与实现[D];华北电力大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
2 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期
3 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期
4 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
7 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
8 肖明忠;代亚非;;Bloom Filter及其应用综述[J];计算机科学;2004年04期
9 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
中国博士学位论文全文数据库 前1条
1 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前2条
1 姚泽勤;一种传输产品中实时嵌入式数据库的研究[D];西安电子科技大学;2002年
2 汪静;基于文件系统的嵌入式数据库的设计和实现——EDB的设计和实现[D];电子科技大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 张玲,林亚平,陈治平,童调生;基于综合价值的Web主题信息搜集策略研究[J];系统仿真学报;2005年02期
2 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
3 陈治平,林亚平,李军义;智能门户搜索引擎技术[J];计算机工程;2004年03期
4 李学勇,欧阳柳波,李国徽;非贪婪策略在WEB搜索中的应用[J];中央民族大学学报(自然科学版);2004年03期
5 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
6 李学勇,谭义红,田立军,欧阳柳波,李国徽;ε-贪婪策略在网络蜘蛛搜索策略中的应用[J];湖南工程学院学报(自然科学版);2004年02期
7 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
8 李旭倩;甄力;;MFC网络蜘蛛流程分析[J];电脑编程技巧与维护;2008年09期
9 柳婷;;网络蜘蛛的简单设计与研究[J];大众商务;2010年16期
10 王勇,李杨;网上信息搜索、采集与整理技巧[J];山东电子;2002年02期
中国重要会议论文全文数据库 前10条
1 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
2 袁特;顾新建;胡恒杰;许琦;;一种企业竞争情报系统的研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
3 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
4 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
5 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[A];福建省图书馆学会2008年学术年会论文集[C];2008年
7 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
8 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 陈哲;倪俊峰;;搜索引擎原理概述及其在星空黄页网站中的应用[A];2004年度中国索引学会年会暨学术讨论会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
2 于发修;寻找搜索的技巧[N];中国计算机报;2001年
3 ;搜索引擎为自由信息导航[N];中国电脑教育报;2005年
4 秦可;普加启用新搜索引擎[N];中国工业报;2007年
5 姜姝;娱乐至死 肉搜成疯[N];中国电脑教育报;2008年
6 胡海啸 华滨 张梦谦;手机搜索:信息尽在手中[N];中国税务报;2005年
7 彭静;我为搜索狂[N];中国计算机报;2004年
8 本报记者 杜昊;内容管理:平地起风[N];计算机世界;2003年
9 胡金喜;搜索引擎如何搜到用户心?[N];中华工商时报;2000年
10 刘成;自主创新是提高综合国力的关键[N];经济日报;2007年
中国博士学位论文全文数据库 前4条
1 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
中国硕士学位论文全文数据库 前10条
1 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
2 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
3 何源源;迅雷资源搜索引擎的研究与实现[D];西北工业大学;2007年
4 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
5 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
6 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
7 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
8 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
9 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
10 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026