收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

智能信息采集搜索策略研究

张玲  
【摘要】:近年来,如何在Web海量信息中尽可能多地获取与用户兴趣相关的页面是搜索引擎领域研究的热点之一。本文通过改善网络蜘蛛的自适应性来提高搜索效率,对基于主题的网络蜘蛛的搜索策略进行较为深入的研究。 本文首先介绍了现阶段网络蜘蛛的研究进展,在分析和比较现有基于主题的网络蜘蛛搜索策略的优缺点的基础上,探讨了如何提高网络蜘蛛的自适应性和预测链接价值的准确性,以此来提高搜索的效率。 为了提高网络蜘蛛的自适应性,本文提出一种基于综合价值的搜索算法,通过结合链接的立即价值和未来价值,分析这两者相应的变化趋势来判断待搜索页面集与主题的相关性,依此动态调整这两种价值的权值关系,产生适合实际搜索情况的最优搜索策略。实验结果表明,新算法在整体性能上明显优于采用单一链接评价方法的网络蜘蛛搜索算法。 为了提高链接价值预测的准确性,本文针对传统的PageRank算法存在的主题漂移现象,提出基于主题分块的PageRank算法,利用信息抽取的方法对网页建立DOM层次树,按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并根据已访问的链接对块进行相关性反馈。实验结果表明新的算法能较好地改进搜索结果的精确度。 本文还提出一种基于遗传算法的网络蜘蛛搜索策略,将遗传算法引入网络蜘蛛搜索策略,将父页面,链接文本,链接的URL以及兄弟链接等信息的不同组合作为不同的基因序列,通过交叉、变异操作使web信息的组合方式可以随着web资源的实际情况而动态变动,得到符合web情况的较优搜索策略。实验结果表明,新的算法具有较高的搜索效率。 最后,本文利用提出的算法和相关技术,实现了一个可采用多种搜索策略的计算机相关论文专业搜索引擎网络蜘蛛系统原型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李龙澍;;基于TurboPROLOG的搜索策略实现技术[J];软件;1994年01期
2 李龙澍;;PROLOG线性归结的研究与设计[J];安徽大学学报(自然科学版);1997年03期
3 张帆,唐湘蓉;基于遗传算法的优化搜索技术[J];矿物岩石;1998年S1期
4 孔庆琴;孙俊;须文波;;基于QPSO的改进算法[J];计算机工程与应用;2007年28期
5 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
6 林强;张远平;陈花;何毅;;星形多边形搜索策略的研究[J];计算机应用研究;2009年02期
7 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
8 陈玲俐;于洁;;双重模糊编码遗传算法及聚焦搜索策略[J];生物数学学报;2011年01期
9 崔泽永,常晓燕;搜索引擎的Web Robot技术与优化[J];微机发展;2004年04期
10 谈理;刘谨;梅丽婷;;参数化控制系统中推理机的研制[J];机械科学与技术;2006年04期
11 万琳;;面向C程序的测试用例自动生成实现[J];火力与指挥控制;2006年10期
12 瞿嵘;刘潇;翁敏;;出行路径选择标准及策略研究[J];测绘信息与工程;2008年02期
13 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期
14 施云惠;郭荆玮;孔德慧;靳威;肖小芳;;基于金字塔的改进混合纹理合成[J];北京工业大学学报;2009年06期
15 张念发;张宪新;刘长征;;基于状态空间搜索法的商人过河问题解决方案[J];电脑编程技巧与维护;2010年18期
16 吕晓玲;张明路;;基于机器人听觉的自主声源搜索策略[J];机器人;2010年05期
17 张伟;孔令讲;杨晓波;王晓静;;一种用于HPRF雷达的改进DPA弱目标检测算法[J];现代雷达;2011年05期
18 刘苍剑;;Internet中文搜索引擎检索系统设计[J];适用技术市场;2001年04期
19 张彦林;电子战搜索策略[J];情报指挥控制系统与仿真技术;2002年09期
20 龚晖;聂爱丽;;最大超越搜索法的可靠性判据[J];模式识别与人工智能;2002年01期
中国重要会议论文全文数据库 前10条
1 汪秉宏;;网络交通流中的路由搜索策略及相变[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
2 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];全国暖通空调制冷2002年学术年会论文集[C];2002年
3 何伟;李庆忠;郑永清;崔立真;;社区云计算环境中的一种数据分布及搜索策略[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 李慧敏;邬群勇;王钦敏;;Robot技术在空间信息服务搜索中的应用研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
5 彭俊杰;卢正鼎;李瑞轩;;一种改进的非结构化P2P网络搜索方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 何立居;李启华;;基于蚁群算法的航线自动生成研究[A];中国航海科技优秀论文集[C];2009年
7 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];山东建筑学会成立50周年优秀论文集[C];2003年
8 熊凌;;计算机视觉中的图像匹配综述[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 罗凡;彭秀增;申春;李肃义;;MySQL中InnoDB引擎索引树的搜索策略[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 蒋大林;李琳;;图像匹配技术的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 梅建新;基于支持向量机的高分辨率遥感影像的目标检测研究[D];武汉大学;2004年
2 杨光;基于大型科学仪器工作站的屏幕图像识别与压缩技术研究[D];吉林大学;2011年
3 颜力;飞行器多学科设计优化若干关键技术的研究与应用[D];国防科学技术大学;2006年
4 赵勇;卫星总体多学科设计优化理论与应用研究[D];国防科学技术大学;2006年
5 张焱;地面背景下成像目标跟踪技术研究[D];国防科学技术大学;2008年
6 王平;非结构化对等网络中的信任机制及搜索策略研究[D];西南大学;2010年
7 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
8 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
9 刘伟;对地观测卫星任务规划模型与算法研究[D];中国科学院研究生院(空间科学与应用研究中心);2008年
10 李智欢;无功优化进化计算的局部搜索策略及多目标处理方法[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
3 杨军;基于块匹配的视频图像运动估计技术研究[D];湖南大学;2007年
4 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年
5 苗军;字典搜索策略的研究与实现[D];华南理工大学;2013年
6 蔺志峰;复杂网络的搜索策略研究[D];石家庄经济学院;2011年
7 张世良;字符空间优化搜索策略的研究与实现[D];华南理工大学;2012年
8 张娜;细菌觅食优化算法求解车间调度问题的研究[D];吉林大学;2007年
9 李富峰;青少年互联网自我效能感、搜索策略和信息焦虑的关系[D];首都师范大学;2009年
10 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
中国重要报纸全文数据库 前8条
1 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
2 内蒙古建设银行包头分行 薛志强;体会宽度优先搜索[N];网络世界;2002年
3 寿栋芯语;揭开企业搜索的技术面纱[N];计算机世界;2008年
4 中科院计算所 罗杰文;P2P搜索技术研究与挑战[N];计算机世界;2006年
5 本报记者 于翔;雅虎重组能否自我拯救?[N];网络世界;2008年
6 搜索引擎9238;搜索专家谈技巧[N];中国计算机报;2001年
7 加拿大ComputerWorld Shane Schick;鲍尔默应为微软做十件事[N];计算机世界;2008年
8 广东省广州华南师大附小 王继华;概念图对提高网络学习效率的作用[N];中国电脑教育报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978