收藏本站
《山东大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

博客资源的爬取与检索

许雁鸣  
【摘要】: 目前,随着经济文化的发展,互联网信息资源正在急剧增加。信息的表现形式也不断趋于多样化,复杂化,诸如论坛、博客、播客、网络硬盘等各种信息服务竞相发展起来。面对这些浩如烟海的网络信息,人们迫切需要一种有效的方式以快速提取出所需的,有价值的资源。事实证明,搜索引擎正是这样一个非常有效的信息检索工具。Web搜索引擎技术作为计算机与信息产业界争相研究开发的对象,已经日益成熟起来。 博客作为一种新兴的网络服务形式,已经被越来越多的人所关注和使用。然而由于其正处于发展阶段,搜索引擎技术在博客检索上的应用明显有待改进。具体来说,博客(blog)是web网上的一种共享空间,用户以日记的形式在该空间上发表文章、图片、影音文件等个人资源。而传统搜索引擎在时效性,覆盖率,页面分析等方面都无法满足用户搜索博客资源时的要求。因此,如何设计研发一款能够准确抓取博客页面,较大程度上覆盖博客资源,更新及时的博客搜索引擎就成为目前搜索引擎研究领域的热点和挑战。 同时,作为校园网搜索系统的一部分,该引擎检索的博客资源还应尽量贴近校园生活。如何使一个博客搜索引擎按照特定的主题范围搜索,以及如何对得到的结果自动分类以满足特定人群的要求已成为目前研究的热点话题。使该系统在贴近校园生活的范围内进行搜索正是搜索引擎主题化的一个应用。 现在人们广泛使用的知名商用搜索引擎在对博客网页的检索上都有所欠缺。虽然一些服务商也提供了专门的博客搜索功能,但它们在对特定主题以及分类方面仍有很多不足。本文将在传统搜索引擎的基础上设计并实现一个专门用于博客资源检索的搜索引擎系统,并力求使其具有面向主题与自动分类功能,以更好的应用到校园网搜索这一大型项目当中。 本文详细说明了该搜索引擎系统的开发过程和方法,对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计;并介绍了插件机制和分布式处理模型,将它们作为整个系统最基本的部分来设计和实现。本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对博客搜索引擎具体需求的分析,借助基于Java的全文索引软件包Lucene,搭建了博客搜索引擎系统,完成了整个搜索引擎的框架设计和代码实现。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前4条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 李鑫;基于J2EE框架和搜索引擎构建购物系统的研究与实现[D];西安建筑科技大学;2009年
3 祁鹏;基于移动搜索的Spider爬行策略的研究和实现[D];成都理工大学;2010年
4 田董涛;微博客数据的获取与分析方法研究[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前7条
1 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
2 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
3 胡骏;李星;;校园网信息资源搜索引擎的研究与实现[J];计算机工程与设计;2006年24期
4 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
5 霍艳蓉;Web信息检索的关键技术[J];现代图书情报技术;2002年06期
6 王香莲;Google和百度两种搜索引擎比较研究[J];现代图书情报技术;2004年08期
7 杨杰,徐炜民;搜索引擎原型系统的研究与设计[J];小型微型计算机系统;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
2 陈晓柱;曾莹;;自动分词在智能答疑系统中的作用[J];电脑知识与技术(学术交流);2007年11期
3 赵远东;陈康;陈建华;;基于全文检索的Segmenter分词算法改进[J];电脑知识与技术;2009年01期
4 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
5 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
6 刘辉林;孟莉;杨松波;王光兴;;专业搜索引擎数据更新的算法P~2FC[J];广西师范大学学报(自然科学版);2007年02期
7 郭涛;黄铭钧;;社区网络爬虫的设计与实现[J];智能计算机与应用;2012年04期
8 孙志;张莉;;中小型校园网全文搜索引擎的研究与实现[J];电子世界;2012年19期
9 崔虹燕;;一种改进的基于词频统计的中文分词算法研究[J];信息技术;2008年04期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国重要会议论文全文数据库 前1条
1 杜言琦;马军;;基于版块的论坛增量搜集策略[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前7条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
6 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
7 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
3 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
4 杨克特;面向中医药的多元语义搜索引擎[D];浙江大学;2010年
5 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
6 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
7 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
8 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
9 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
10 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 曾庆祥;廖建新;安宝贵;朱春梅;于川;;基于Lucene算法的移动终端资源搜索引擎研究与设计[J];北京工商大学学报(自然科学版);2008年05期
3 刘丽清;;微博虽“微”足值道尔——微博特性之浅析[J];东南传播;2009年11期
4 王丽;唐建雄;;基于DOM和网页模板的Web信息抽取[J];电脑知识与技术(学术交流);2007年18期
5 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
6 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
7 杨喜权;孔德冉;施华;孙娜;张野;;基于领域本体的Web信息抽取[J];信息技术;2009年09期
8 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
9 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
10 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
中国博士学位论文全文数据库 前1条
1 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 陈宗娇;基于Struts+Spring+Hibernate多层框架的Web应用系统研究与实现[D];辽宁工程技术大学;2006年
2 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
3 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
4 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年
5 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
6 任仲晟;基于树形结构的Web信息抽取技术研究[D];厦门大学;2007年
7 程兆辉;基于开源框架开发Web应用的研究与实现[D];西安建筑科技大学;2008年
8 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
9 齐海凤;网络舆情热点发现与事件跟踪技术研究[D];哈尔滨工程大学;2008年
10 彭俊;复杂网络的拓扑结构及传播模型的研究[D];西安电子科技大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 韩国兴;面向移动搜索的PUSH平台的设计与实现[D];哈尔滨工程大学;2011年
2 范强;基于J2EE的JCup框架集成与应用[D];西南交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
2 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
3 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
4 邓伟,张志伟,谭庆平,宁洪;一种新型的智能搜索引擎[J];计算机工程;2000年03期
5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
6 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
7 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
8 郭万召;网络搜索引擎的分析与比较研究[J];情报科学;2000年01期
9 陈继红,青晓;四种搜索引擎的比较研究[J];情报科学;2003年10期
10 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 邹昆;让您的视野更开阔——Netscape的全屏浏览插件Fullscr[J];中国青年科技;1998年12期
2 ;IE6加入反钓鱼技术[J];网络与信息;2005年11期
3 DBOY;第五课:Premiere插件全接触(一)[J];电脑应用文萃;2005年11期
4 乔珊;;傲游“插”翅飞[J];电脑爱好者;2006年23期
5 丰晋军;许铁山;;基于MFC的插件应用程序设计与实现[J];计算机与信息技术;2008年06期
6 孔楠;;藤蔓可以这么“种”出来——Guruware lvy插件牛刀小试[J];现代电视技术;2009年02期
7 ;打开高效办公宝盒 WPS 2009个人版闪亮登场[J];电脑爱好者;2009年09期
8 ;TOP 10供摄影师使用的最佳插件[J];影像视觉;2009年S1期
9 ;图解玩转DM800插件(13)[J];卫星电视与宽带多媒体;2011年17期
10 李升阳;计算机的统计热设计[J];计算机工程;1984年04期
中国重要会议论文全文数据库 前10条
1 翟曙光;;一种实用的组件式GIS的设计方法[A];'2005数字江苏论坛——电子政务与地理信息技术论文专辑[C];2005年
2 陈三定;;通用文件格式转换工具的设计与实现[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 过雅南;李侃;赵棣新;Koji UENO;;一个基于通用VME插件的中微子望远镜触发电路[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
4 文齐;印桂生;杨光;;基于端口扫描和插件的网络漏洞扫描器的设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
5 王卫锋;赵晓明;郑少仁;;基于SMTP协议的邮件服务器防病毒前端插件研究和实现[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
6 文江敏;;互联网上地理信息发布现状简析[A];全国测绘与地理信息技术研讨交流会专辑[C];2003年
7 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
8 姚再勇;郑启龙;许胤龙;姚震;张红涛;胡晨光;;基于Eclipse的并行开发环境EMPI[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 薛涛;唐文忠;杨宗煦;;数据库漏洞扫描器系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
10 韩敬伟;井涛;;COM组件技术在智能测量仪器中的应用[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅲ)[C];2008年
中国重要报纸全文数据库 前10条
1 ;“流氓插件”插伤搜索市场[N];民营经济报;2006年
2 仲勇;封锁常见网页插件的安装提示[N];中国电脑教育报;2004年
3 断水流;把恶意ActiveX插件扫地出门[N];电脑报;2004年
4 小三;我的网上银行不能用了?[N];电脑报;2005年
5 重庆 李文欣;Linux技巧园[N];电脑报;2004年
6 江苏 精灵;Maxthon的三把下载利“剑”[N];电脑报;2004年
7 晓燕;此百狗非彼百狗baigle为己正名[N];国际商报;2006年
8 河北省乐亭县新寨高中 朱立民;浅谈PowerPoint中声音插件的共享播放[N];中国电脑教育报;2005年
9 SUNING;在Linux下玩QQ[N];电脑报;2004年
10 龙哥;硬件应用[N];中国计算机报;2005年
中国博士学位论文全文数据库 前10条
1 杨珩;大亚湾中微子实验中RPC电子学前端读出板和读出插件的研制[D];中国科学技术大学;2010年
2 李旭晖;移动Agent描述与仿真中若干问题的研究[D];武汉大学;2003年
3 丁肇辉;网格元调度系统的研究和CSF4元调度器的设计与实现[D];吉林大学;2009年
4 姬伟;面向业务的空间信息服务应用开发体系链[D];中国地质大学;2010年
5 毕修颖;船舶碰撞危险度及避碰决策模型的研究[D];大连海事大学;2000年
6 毕林;数字采矿软件平台关键技术研究[D];中南大学;2010年
7 陈永华;WebGIS三维可视化的研究[D];解放军信息工程大学;2000年
8 李保红;水分配网络设计与改造方法研究[D];大连理工大学;2001年
9 张向奎;汽车车身部件快速成形仿真技术平台与关键算法研究[D];吉林大学;2008年
10 苏年乐;仿真模型可移植性规范的多核并行化研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 许雁鸣;博客资源的爬取与检索[D];山东大学;2008年
2 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年
3 马焱炜;可视化集成开发环境研究[D];武汉理工大学;2006年
4 焦艳梅;常见插件和插箱结构的连接性能仿真与分析[D];西安电子科技大学;2011年
5 赵泽松;总线——插件式体系结构方法研究[D];重庆大学;2001年
6 徐鑫;一个易扩展的基于点的造型和绘制系统平台[D];浙江大学;2006年
7 刘丁瑞;刑法学视野中的第三方插件[D];中国政法大学;2011年
8 闫志贵;基于Eclipse的嵌入式调试软件的研究与实现[D];武汉理工大学;2010年
9 金星善;基于Eclipse RCP的应用系统研究与实现[D];武汉理工大学;2011年
10 李腾飞;基于多分类SVM的营销风险评价软件设计[D];天津大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026