收藏本站
《湖北工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传算法的主题爬虫搜索策略研究

梁云静  
【摘要】:传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。在专业化需求日益增长的今天,主题搜索引擎以其分类细致精确、数据全面准确的特点迅速流行起来,而主题搜索引擎的关键技术——主题爬虫的搜索策略就成为了近几年的研究热点。 本文将遗传算法应用在主题爬虫的搜索中,引入遗传算法来改进爬虫的搜索策略,利用遗传算法高效、并行、全局寻优的特点,提高爬虫的搜索效率。本文的研究内容主要有以下两个方面:根据网络特点改进传统的遗传算法;通过实验验证改进后的效果。 基于遗传算法的主题爬虫搜索策略,是将待检索的问题提交给通用搜索引擎,对其返回的结果集进行处理,选择一定数目的URL作为初始群体;通过交叉操作,提取初始群体中URL对应页面包含的所有超链,产生出大量新的个体,再对所有超链进行相似度预测,选出相关度高的种子作为交叉结果;通过变异操作,引入目录型网页,扩大搜索范围;通过选择操作,对遗传之后的结果进行处理,选出相关度高的个体作为新一代的种子进入新一轮的遗传;通过爬虫终止搜索条件,来结束爬虫的搜索。 本文在构造初始群时,将待检索的问题提交给通用搜索引擎Google,对其返回的结果集选择前n个URL,再扩展、去重、计算Authority和Hub值,重点是引入了Alexa排名,然后依据综合排名值选择初始种子集合。在交叉过程,根据超链的锚文本有效地预测对应的页面与主题的相似度。在变异阶段,根据目录型网页包含的大量链接和详细的分类来寻找相关网页。 本文设计了一个实验,来验证遗传算法在爬虫搜索中应用的可行性以及改进后的遗传算法的效果。在实验中,本文采用GA、HITS、Best-First三种算法分别对给定主题进行搜索,将搜索到的网页根据向量空间模型算法计算其与主题的相关度,再分别统计三种算法搜索到的相关的网页数。实验结果表明,本文的基于遗传算法的爬虫搜索策略在某种程度上具有一定的优势。
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 杜娟娟;郑丽英;;基于模拟退火遗传算法的主题爬虫搜索策略研究[J];科技风;2012年16期
中国硕士学位论文全文数据库 前1条
1 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
4 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
5 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
6 唐志;王成良;;遗传算法在主题Web信息采集中的应用研究[J];计算机科学;2006年07期
7 尹存燕;戴新宇;陈家骏;;Internet上文本的自动摘要技术[J];计算机工程;2006年03期
8 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
9 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
10 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
中国博士学位论文全文数据库 前3条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前4条
1 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
2 刘铮;定题Web搜索与挖掘的研究及系统实现[D];西安电子科技大学;2007年
3 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
4 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 陈基漓;牛秦洲;;WEB挖掘在农业信息网站个性化服务中的应用[J];安徽农业科学;2008年35期
4 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
5 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
6 郭新志;钟家民;;一种改进的双重过滤模型算法[J];安阳工学院学报;2009年02期
7 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期
8 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
9 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
10 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
6 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
7 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
7 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
8 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
9 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
8 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
9 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
10 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
2 郭力军;朱群雄;;基于RSS数据源的用户兴趣模型改进及应用[J];北京化工大学学报(自然科学版);2011年01期
3 赵全东;王芳;任力生;;农业智能问答系统中的用户偏好研究[J];河北农业大学学报;2011年01期
4 伊雯雯;何福男;;基于用户浏览行为的用户兴趣模型的表示及更新[J];常州信息职业技术学院学报;2010年04期
5 荆济学;张伟;;浅谈如何利用Google高效搜索[J];电脑知识与技术;2010年19期
6 米晓红;;基于潜在语义索引技术的用户兴趣模型构建[J];信息技术;2008年07期
7 王海鹰;魏颖;;基于蚁群算法的多目标网页综合评价策略[J];计算机工程与应用;2011年04期
8 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期
9 张世明;覃正;徐和祥;郑衍衡;;基于用户兴趣模型匹配的资源检索算法的设计和实现[J];计算机应用与软件;2009年10期
10 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
中国重要会议论文全文数据库 前1条
1 徐志明;宋毅;冯子威;李生;;一种基于分类的用户兴趣模型[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前3条
1 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
2 周华慧;基于语义信息的面向数据库的Top-k关键字查询技术[D];东北大学;2008年
3 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
3 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
6 吴军,王作英;汉语信息熵和语言模型的复杂度[J];电子学报;1996年10期
7 李学勇,谭义红,田立军,欧阳柳波,李国徽;ε-贪婪策略在网络蜘蛛搜索策略中的应用[J];湖南工程学院学报(自然科学版);2004年02期
8 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
9 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
10 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前9条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 于波;中文全文检索技术研究[D];华中师范大学;2003年
5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
6 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
7 李淑静;基于内容的垃圾邮件过滤研究与实现[D];南京信息工程大学;2006年
8 宋静;分布式并行数据库一致性机制研究与实现[D];电子科技大学;2006年
9 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 曾长清;王玉皞;陈绯;黎鹰;;基于量子遗传克隆挖掘的Web搜索策略[J];广西师范大学学报(自然科学版);2009年01期
2 邵雄凯;梁云静;刘建舟;;基于遗传算法的主题信息搜索研究[J];网络安全技术与应用;2009年11期
3 陈玲俐;于洁;;双重模糊编码遗传算法及聚焦搜索策略[J];生物数学学报;2011年01期
4 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
5 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期
6 高伟锋;;基于Heritrix的主题网络爬虫设计与实现[J];南宁职业技术学院学报;2011年01期
7 付国瑜;黄贤英;;基于Web页面平均质量的Web搜索模型和优化算法[J];计算机应用;2009年04期
8 张玲;秦拯;易先卉;;基于遗传算法的Web信息采集策略研究[J];情报理论与实践;2008年02期
9 任荣;;浅析基于遗传算法的关联规则数据挖掘技术[J];电脑知识与技术;2009年03期
10 柯慧凌;李剑;李志勇;蒋慕蓉;;遗传算法应用于水平集模型实现图像分割参数的选取[J];云南大学学报(自然科学版);2009年S1期
中国重要会议论文全文数据库 前10条
1 周海清;王恭先;陈正汉;;基于面向对象遗传算法的抗滑桩优化设计程序的研制[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
2 吴建生;金龙;;基于实数编码的遗传算法神经网络预报建模研究[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 申元霞;张翠芳;;GA-BP算法在系统辨识中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
5 曹春红;李文辉;张永坚;;遗传蚂蚁算法在几何约束求解中的应用[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
7 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
8 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
10 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 朱伟;雅虎中国“变脸”搜索引擎[N];文汇报;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 商报记者  吴辰光;搜索引擎市场趋向细分化[N];北京现代商报;2006年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 元元;从单向搜索转向多维和垂直搜索[N];证券日报;2006年
中国博士学位论文全文数据库 前10条
1 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年
2 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
3 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
4 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
5 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
6 曹宇;利用遗传算法对声障板优化设计的研究[D];哈尔滨工程大学;2010年
7 李军华;基于知识和多种群进化的遗传算法研究[D];南京航空航天大学;2009年
8 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
9 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
10 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
中国硕士学位论文全文数据库 前10条
1 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
2 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
3 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
4 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
5 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
6 宋品;基于改进遗传算法的波束形成技术研究及其应用[D];西安电子科技大学;2010年
7 高建兵;基于遗传算法的模糊推理控制系统的参数优化研究[D];辽宁工程技术大学;2011年
8 李振业;多向变异遗传算法及其优化神经网络的研究[D];华南理工大学;2011年
9 栾丽霞;遗传算法在潍坊商校排课系统的研究与应用[D];电子科技大学;2011年
10 王辉;基于改进遗传算法的物流配送路径优化研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026