收藏本站
《山东师范大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

效用驱动的主题Web挖掘算法研究

杜光芹  
【摘要】: Internet的出现和快速发展,现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎虽然在一定程度上满足了人们的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的Web用户检索的需要,用户从中得到的查询结果往往是一个长长的列表,其中包含了大量重复信息和不相关信息,而要找到想要的信息是一件很困难的事情,因此当要满足一些高级或专业性的信息检索要求时,就需要获得一个面向特定主题(或者特定领域)的全面的Web页面集合,为此,针对主题Web挖掘技术的研究应运而生。 通用搜索引擎的局限性在于其试图索引全部Web并且试图服务于涉及所有主题的查询请求,而面对的又是如此巨大的Web资源库,显然心有余而力不足。面向主题的主题爬虫是主题Web挖掘的核心技术,主题爬虫只覆盖与特定领域相关的网页,爬行原则是尽量使爬行相关页面数量最大化,不相关页面数量最小化,这样它可以搜索的更深,搜索的周期可以更短,更能满足用户对获取资源的快速、准确性的要求。 本文主要的研究工作是根据爬虫的效用来进行技术分析和研究。在主题搜索中,主题爬虫以何种搜索策略访问Web,提高效率,是主题Web挖掘研究的热点问题之一。而Web的动态性,异构性和复杂性要求主题爬虫能够高效率的实现Web信息提取,保证信息的实时性和有效性。本文的主要工作体现在以下几方面: (1)介绍了通用搜索引擎的基本结构、工作原理、分类及其现状和局限性,分析了主题Web挖掘的研究背景,任务及目前研究技术的进展,探讨了主题爬虫关键技术及其实现要点,并对通用搜索引擎和主题Web挖掘的关系进行了分析。 (2)按照评价链接价值所采用方法的不同,对主题Web挖掘中现有的主题爬虫搜索策略进行了分类,系统分析、并比较了它们的特点和优缺点,归纳了提高搜索效率的三个关键因素,考虑到主题Web挖掘对数据实时性、专业性的要求要远远高于通用搜索引擎,提出了一种全新的基于索引页的增量Web信息提取算法,能够高效快速地发现Web上新增加的页面。 (3)考虑到基于超链接结构的算法和基于向量空间模型的算法各自的局限性和互补性,对传统的超链接算法进行了改进,提出了一种基于向量空间模型的超链接算法。该算法一方面通过分析网页之间的链接关系得到每篇网页的入度值和出度值,同时另一方面又通过锚文本和超链接上下文等标记文本信息的匹配从而更加客观和准确地作出相关性判断,具有更好的性能。 (4)针对目前爬虫效率不高的状况,以主题相关度和高效的爬行策略为核心提出了一套主题爬虫的设计方案,并充分说明了设计方案的可行性,然后对实现进行了详细分析和论证。实验结果表明虽然主题爬虫比普通爬虫耗时,但它也带来了正面效应,使爬行的工作量得到了一定程度的减少,页面一旦进入抛弃队列将不再被处理,而普通爬虫只会没有选择的对所有页面进行处理,而且主题爬虫在搜索的准确性和精确性上都比普通爬虫要好。 主题Web挖掘能实现更高的查全率和查准率,能满足一些高级或专业性信息的检索要求,目前主题爬虫技术已成为一个将采集技术与过滤方法结合的新兴方向,也是信息检索领域的研究热点,为Web信息的利用提供了新的解决方案。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期
2 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
3 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期
4 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
5 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
6 曾致远;张莉;;基于向量空间模型的网页文本表示改进算法[J];计算机工程;2006年03期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 陈志敏;沈洁;林颖;周峰;;基于主题划分的网页自动摘要[J];计算机应用;2006年03期
9 刘金红;陆余良;;一种基于锚文本和改进C4.5决策树算法的主题爬行方法[J];计算机应用;2006年12期
10 王诚,张璟;基于语义的Web信息检索[J];计算机应用研究;2005年08期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 刘珊慧;万韵;杨乐;;基于本体的农业信息资源语义检索过程研究[J];安徽农业科学;2009年23期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
6 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
7 高庆狮;李莉;刘宏岚;;基于语义单元表示树剪枝的关键字过滤方法[J];北京科技大学学报;2006年12期
8 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
9 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
10 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
中国重要会议论文全文数据库 前10条
1 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张慧妍;贾宁;翁贻方;;网络技术助力污水处理自动控制人才的培养[A];北京高教学会实验室工作研究会2010年学术研讨会论文集(下册)[C];2010年
3 张慧妍;贾宁;;污水处理自动控制网络平台的设计与研制[A];北京高校实验室工作研究会2010年年会优秀论文[C];2011年
4 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
5 张素智;李宝燕;樊得强;;面向用户和领域本体的Web信息采集系统[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
6 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 周晓滨;;基于WEB的远程教育中搜索的研究与实现[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
9 丁山山;陈世平;;智能Agent技术在个性化WEB信息代理中的应用研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
7 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
8 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
10 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
5 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
6 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
7 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
8 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
9 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
2 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期
3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
6 陈治平,林亚平,童调生;基于N层向量空间模型的信息检索算法[J];计算机研究与发展;2002年10期
7 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
8 廖乐健,曹元大,李新颖;基于Ontology的信息抽取[J];计算机工程与应用;2002年23期
9 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
10 徐振宁,宋阔益,张维明,李勇,李由;基于本体的语义信息查询系统的研究与实现[J];计算机工程;2002年12期
【相似文献】
中国期刊全文数据库 前10条
1 郭辉,蔡庆生;Web主题信息监控系统设计与实现[J];计算机应用;2003年08期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
4 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
5 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
6 王琳琳;;基于HTML解析器的Web信息提取技术[J];郑州轻工业学院学报(自然科学版);2008年06期
7 肖展飞,洪流,蔡庆生;个性化Web主题信息监控系统的实现[J];计算机应用;2004年04期
8 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[J];微电子学与计算机;2009年09期
9 邵晓良,刘红;Web主题信息采集中信息主题的识别[J];现代图书情报技术;2004年10期
10 王兰成;基于EMM中文抽词算法的XMARC主题信息挖掘[J];情报学报;2005年01期
中国重要会议论文全文数据库 前10条
1 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
5 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
8 袁崇谦;;基于模糊掩模方法的遥感图像预处理研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
9 马英民;;论革命历史类博物馆现代展示理念与手法[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
10 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
2 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
3 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
4 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
5 卢至虎;“让一张新闻纸能阅读三天”[N];中国新闻出版报;2006年
6 朱启明;纪念邮票领风骚[N];中国邮政报;2007年
7 刘传科康西强 本报记者 许继升;“全心为你”——福田雷沃重工的承诺[N];中国县域经济报;2008年
8 孙伟;“中国制造”心仪“机器人”产业[N];中国质量报;2004年
9 李晓钢;有效建立数据交换与共享机制[N];大众科技报;2006年
10 记者 虞珊珊通讯员 夏福军 颜昌慧 实习生 郭冬妮 刘锈鸿;中国-东盟港口发展与合作论坛会徽首次亮相[N];广西日报;2007年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
8 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
9 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
10 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
2 刘文君;基于膜计算优化算法的语义主题爬虫研究[D];西华大学;2013年
3 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
4 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
5 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
6 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
7 张一凡;基于文档频率的分级主题模型[D];北京邮电大学;2011年
8 张倩;用于网络评论文本挖掘的主题模型研究[D];北京交通大学;2014年
9 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
10 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026