收藏本站
《山东大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

面向垂直搜索引擎的主题爬行技术研究

陈竹敏  
【摘要】: 主题爬行是获取World Wide Web中特定领域(主题)的网页的关键技术。随着Web的快速增长,以及网络带宽和各种资源的有限性,从中获取全面、准确和高质量的信息变的越发困难。传统(通用)搜索引擎技术呈现出了严重的局限性。(1)对某一查询返回的结果太多且相关性、质量不高。(2)不能满足不同背景、不同目的和不同时期的用户的需求。(3)在索引的全面性、更新的及时性上存在着很大的不足。垂直搜索引擎(Vertical Search Engine)被作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、个性化、领域化的特点,从而成为当前学术界和产业界研究的热点。它利用主题爬行(Focused Crawling or Topical Crawling)技术来搜集面向领域(主题)的Web网页,并提供面向主题的检索服务。无疑,主题爬行技术作为垂直搜索引擎的基础与核心,它的性能对垂直搜索引擎的性能至关重要。此外,主题爬行技术还可用于Web的实时检索、个性化检索、数字图书馆等领域。因此,对主题爬行技术的研究具有重要的学术意义和广阔的应用前景。 主题爬行基于这样一个重要的假设:与同一主题相关的网页趋向于互相链接,被称为Web上的主题局部性。主题爬虫每次从待爬行URLs队列中选择最有希望的链接进行爬行,其目标是保持在主题相关的网页的周围,而不偏离主题。因此,主题爬行在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的时新性。但由于Web是一个高度开放、异构、分布式的信息空间,网页杂乱地散布在全球各个站点上,而且每天以极快的速度更新。相对于巨大、无序的Web信息空间,与某个主题相关的网页是非常有限的,仅仅是整个信息空间的一小部分。而一个理想的主题爬虫需要最大限度的爬行与预定主题最相关的网页,并最小限度的爬行不相关的网页。因此,主题爬行又是一个极富挑战性的研究课题。 主题爬行的关键技术有:主题(用户需求)描述、面向主题爬行的网页分块、待爬行URLs优先级计算、主题爬行算法。研究主题爬行技术的目标是提供建立垂直搜索引擎的一般技术和通用算法,通过提高网页搜集的效率和质量来提高垂直搜索引擎的性能,降低垂直搜索引擎的构造和运行代价。本文以“山东省科技攻关计划项目一垂直检索系统的研究与开发”为依托,针对上述关键技术展开研究,主要贡献和创新点包括如下几点: (1)提出了一种基于分类法的上下文主题描述(CTD-T,Contextual TopicDescription based on Taxonomy)方法。 CTD-T方法基于ODF(open Directory Project)来表示主题(用户需求)。对于ODP中的任一主题结点,给出其“上下文主题关键词集合(CTKW,ContextualTopic Key Words)”和“主题描述(TD,Topic Description)”的定义及表示方法。针对直接从ODP中获取CTKW会引入很多噪音结点的问题,提出了一种基于逆路径频率(IPF,Inverse Path Frequency)对CTKW进行去噪的方法。另外,在对CTKW进行向量表示时,提出了一种基于主题结点在ODP中的相对层次位置来计算其权重的方法。利用CTKW来计算已知信息(网页,锚文本等)与给定主题及其上下文主题的相关度,用来在线指导主题爬虫的爬行。利用TD来计算已爬行网页与给定主题的相关度,用来离线评价主题爬虫的性能。 (2)提出了一种面向主题爬行的在线网页分块(OPS4FC,Online PageSegmentation for Focused Crawling)方法。 指出一个网页中影响主题爬行算法性能的块主要有两种:文本块和链接块。链接块可以进一步被细分为相关链接块,导航链接块和噪音链接块。OPS4FC的主要目标是识别出网页中的主题文本和相关链接块。首先,将一个已爬行的网页解析成DOM(Document Object Model)树。其次,提出一种基于多特征的概率统计方法来识别出该网页中的所有文本块和链接块。然后,根据文本块之间的语义相关性关系来识别出整个网页的主题文本。最后,根据链接块中所有链接的锚文本集合与主题文本的语义相关性关系识别出该网页所有的相关链接块。实验从Web信息检索和主题爬行两个角度证明了OPS4FC方法具有很好的通用性。适用于对海量的,不同版面格式的网页的处理,能够有效的提取网页的主题文本内容和相关链接块,有效的去除网页中的噪音文本和噪音链接,从而能显著的提高Web检索和主题爬虫的性能。 (3)提出一种多粒度的TCURLs优先级计算(PUMG,Prioritizing URLs inMulti-Granularities)方法。 主题爬行的基本思想就是计算爬行队列中的待爬行URLs(TCURLs,ToCrawl URLs)的访问优先级,并每次选最有希望者进行爬行。因此,主题爬行的核心计算问题是:计算每个TCURL的访问优先级。PUMG以CTD-T和OPS4FC为基础,利用站点、网页内容、相关链接块、锚文本、URL地址和链接类型六种特征,从站点级、网页级、块级和链接级四种不同的粒度来计算一个TCURL的优先级。在PUMG中的子创新点如下: a)提出了以站点为粒度来计算该站点中的TCURLs优先级的方法。如果站点S_1的相关网页数(相关度)大于站点S_2的相关网页数(相关度),那么在动态的爬行过程中,S_1中已爬行的相关网页总数(相关度总和)的增速比S_2的快。因此,一个站点到目前为止已爬行的相关网页数(相关度总和)的增速可以用来衡量该站点的TCURLs的优先级。 b)在基于网页粒度的TCURLs的优先级计算中,不是利用整个网页的内容,而是基于分块后的该网页的主题文本和所有相关链接块的锚文本集合。因为使用的是经过分块后的网页,有效的去除了其中的噪音,提高了优先级计算的准确性。 c)针对当前网页中链接较多,且相关链接易于聚集成块的特点,提出了以链接块为粒度来计算该块中的TCURLs优先级的方法。在计算时,只利用网页的相关链接块,因此有效的过滤掉大量的噪音链接。此外,有些相关链接的锚文本较短,单纯依靠锚文本不能有效的发现它们,而以块为粒度很好的解决了这个问题。 d)指出大部分网页的URLs地址包含了与网页内容相关联的一些语义标记(Token),并提出了基于一个TCURL地址的语义标记来计算其优先级的方法。首先,把中文URLs中的语义标记主要分成四种形式:完整英文、英文缩写、完整拼音和拼音的第一个字母。然后,经过半自动的统计分析,创建了一个主题-标记映射表(TTMT,Topic-Token Mapping Table)。对于一个给定主题,从TTMT中找到对应的四种形式的标记;对于一个给定URL,根据分隔符“/”和“.”将其分割成多个标记;然后通过两者标记的匹配情况,确定该URL的优先级。 e)提出了基于链接类型来计算一个TCURL的优先级的方法。一个网页的出链指向的网页继承了该网页与主题的相关性。首先,利用一个TCURL与其父网页在Web站点中的相对位置将链接分成五种类型。然后,给出了五种启发式规则根据链接类型来推断该TCURL指向的网页与其父网页的主题间的关系,并确定一个合理的继承因子。利用父网页与指定主题的相关度乘以继承因子作为预测的该TCURL指向的网页与指定主题的相关度,从而作为该TCURL的优先级。 (4)提出了一种基于多粒度优先级计算的自适应主题爬行(AFC-PUMG,Adaptive Focused Crawling based on PUMG)算法。 AFC-PUMG从一些与预定主题相关的种子出发,利用OPS4FC对已爬行的网页进行分块,并抽取出网页中的待爬行URLs,然后利用PUMG计算每个URL的优先级,并按照其优先级顺序进行访问。AFC-PUMG给出了一个可变长度的路径探测深度(PED,Path Exploring Depth)函数,使TCURLs的PED随着其所在网页与给定主题的相关度的变化而变化。从而使AFC-PUMG可以更加灵活的控制探测的方向和深度,获取更多更相关的网页。此外,根据不同粒度的优先级计算之间的依赖关系,定义了它们计算的先后顺序,并用来改进AFC-PUMG算法的优先级计算过程,降低了算法的运行时间复杂度。 (5)基于上述技术实现了一个主题爬行原型系统,从多个角度对本文的方法进行了实验分析。 给出了原型系统的体系结构和具体的设计方案。我们在该原型系统中同时实现了宽度优先(Bread-First),最佳优先(Best-First),Shark-Search和本文的AFC-PUMG。进行了一系列的实验,实验针对多个不同的主题,在真实的Web环境上,从多个角度证明了本文提出的CTD-T、OPS4FC、PUMG和AFC-PUMG的有效性。在整体性能方面,将本文的AFC-PUMG算法与系统中实现的其它三个爬行算法进行了比较。大量的实验证明,AFC-PUMG在不增加时间复杂度的前提下,在收获率和信息量总和上明显优于其它三种算法。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 刘瑞瑞;;基于移动搜索的图书馆参考咨询服务[J];图书馆学研究;2011年13期
2 王鹏;;垂直搜索引擎及其个性化推荐研究[J];潍坊学院学报;2011年04期
3 李光敏;陈年生;许新山;;面向网页结构特征的Hopfield算法[J];计算机系统应用;2011年07期
4 ;半月谈[J];电脑爱好者;2011年09期
5 Justdo;;爱帮网败诉 胜利真属于网民吗?[J];电脑爱好者;2011年05期
6 秦茜;;马云为资本上市求变 大淘宝正式一分为三[J];IT时代周刊;2011年13期
7 张倩;;依托智能搜索引擎构建档案信息检索系统的策略研究[J];档案与建设;2011年06期
8 李萧然;;扶持奇艺惹恼视频网站大佬 优酷投资视频搜索挑战百度权威[J];IT时代周刊;2011年15期
9 杨芳秀;;做事情 法则是相通的——邓亚萍访谈录[J];新闻战线;2011年08期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
2 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 孙亚夫;常峰;;本地搜索服务的结构设计与关键技术[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
6 李华;;网络搜索服务的新经济模式——移动搜索[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
7 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
8 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 郭瑞杰;程学旗;许洪波;张刚;王斌;;FirteX—高性能全文索引和检索平台[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 ;控寻移动增值业务市场与内容计费[A];四川省通信学会2007年学术年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 前柏;当携程遭遇“旅游垂直搜索”[N];证券日报;2008年
2 本报记者 刘方远;携程、去哪儿再生罅隙 垂直搜索抢攻在线旅游[N];21世纪经济报道;2008年
3 本报记者 姜蓉;垂直搜索遭遇诉讼危机[N];中国经营报;2008年
4 本报记者 齐薇薇;风险资本转身追逐垂直搜索[N];国际商报;2007年
5 本报记者 廖庆升;在线旅游市场增长迅速 竞争激烈垂直搜索前景乐观[N];通信信息报;2010年
6 本报记者  李国训;垂直搜索创业之惑:与巨头们竞跑[N];财经时报;2006年
7 刘冰;垂直搜索越来越有魅力[N];经济参考报;2007年
8 丁飞洋;垂直搜索成第三极[N];中国经营报;2007年
9 商报记者 王晓玥;百度打造垂直搜索矩阵[N];北京商报;2008年
10 雅文;垂直搜索渐成主流网络需求[N];金融时报;2007年
中国博士学位论文全文数据库 前9条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
5 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
8 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
9 李东;在线旅行服务商业模式研究[D];华侨大学;2011年
中国硕士学位论文全文数据库 前10条
1 易平;生活服务行业垂直搜索的设计与实现[D];暨南大学;2010年
2 王振华;档案领域垂直搜索技术的研究与实现[D];东华大学;2011年
3 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
4 于海;基于Lucene的垂直搜索引擎设计[D];吉林大学;2008年
5 邬亚文;威客垂直搜索系统的设计与实现[D];华南理工大学;2010年
6 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年
7 安增文;垂直搜索中信息属性抽取和分类模型研究与实现[D];中国石油大学;2010年
8 张长利;网页相似性算法的研究与实现[D];吉林大学;2005年
9 柳周频;基于链接上下文的网页预测[D];吉林大学;2006年
10 刘志强;基于文本经验模型的主题爬行系统[D];吉林大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026