收藏本站
《湖南大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

智能信息采集搜索策略研究

张玲  
【摘要】:近年来,如何在Web海量信息中尽可能多地获取与用户兴趣相关的页面是搜索引擎领域研究的热点之一。本文通过改善网络蜘蛛的自适应性来提高搜索效率,对基于主题的网络蜘蛛的搜索策略进行较为深入的研究。 本文首先介绍了现阶段网络蜘蛛的研究进展,在分析和比较现有基于主题的网络蜘蛛搜索策略的优缺点的基础上,探讨了如何提高网络蜘蛛的自适应性和预测链接价值的准确性,以此来提高搜索的效率。 为了提高网络蜘蛛的自适应性,本文提出一种基于综合价值的搜索算法,通过结合链接的立即价值和未来价值,分析这两者相应的变化趋势来判断待搜索页面集与主题的相关性,依此动态调整这两种价值的权值关系,产生适合实际搜索情况的最优搜索策略。实验结果表明,新算法在整体性能上明显优于采用单一链接评价方法的网络蜘蛛搜索算法。 为了提高链接价值预测的准确性,本文针对传统的PageRank算法存在的主题漂移现象,提出基于主题分块的PageRank算法,利用信息抽取的方法对网页建立DOM层次树,按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并根据已访问的链接对块进行相关性反馈。实验结果表明新的算法能较好地改进搜索结果的精确度。 本文还提出一种基于遗传算法的网络蜘蛛搜索策略,将遗传算法引入网络蜘蛛搜索策略,将父页面,链接文本,链接的URL以及兄弟链接等信息的不同组合作为不同的基因序列,通过交叉、变异操作使web信息的组合方式可以随着web资源的实际情况而动态变动,得到符合web情况的较优搜索策略。实验结果表明,新的算法具有较高的搜索效率。 最后,本文利用提出的算法和相关技术,实现了一个可采用多种搜索策略的计算机相关论文专业搜索引擎网络蜘蛛系统原型。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前3条
1 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期
2 朱明,王军,王俊普;Web网页识别中的特征选择问题研究[J];计算机工程;2000年08期
3 姚新,陈国良,徐惠敏,刘勇;进化算法研究进展[J];计算机学报;1995年09期
【共引文献】
中国期刊全文数据库 前10条
1 周鸣争;基于遗传算法的模糊隶属函数的优化及应用[J];安徽机电学院学报(自然科学版);1998年04期
2 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
3 杨萍;毕义明;孙淑玲;;具有自主决策能力的机动单元智能体研究[J];兵工学报;2007年11期
4 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
5 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期
6 王华;崔晓婷;刘向东;张宇河;;基于Q-学习的卫星姿态在线模糊神经网络控制[J];北京理工大学学报;2006年03期
7 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
8 童亮;陆际联;;Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
9 韩翠峰;蔺振玲;许峰;;基于Agent的高校数字图书馆个性化服务系统功能模块设计与分析[J];图书与情报;2010年06期
10 吴慧卓;基于指数分布的进化策略[J];纯粹数学与应用数学;2003年01期
中国重要会议论文全文数据库 前10条
1 刘宏宇;杨军;欧建平;;卫星高速数传中基于进化算法的有记忆HPA预失真技术[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
2 ;Research on the Algorithm of Interval Numbers Reinforcement Learning[A];Proceedings of 2006 International Symposium on Distributed Computing and Applications to Business, Engineering and Science[C];2006年
3 赵明旺;;非线性动态系统辨识的混合计算智能算法[A];1997中国控制与决策学术年会论文集[C];1997年
4 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年
5 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年
6 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
7 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中国控制与决策会议论文集(3)[C];2009年
8 ;An Adaptive Inventory Control for a Supply Chain[A];2009中国控制与决策会议论文集(3)[C];2009年
9 谢志华;郑应平;;基于再励学习的排队系统优化控制[A];1995年中国控制会议论文集(下)[C];1995年
10 Meng Joo Er;;Modeling and Fuzzy Q-Learning Control of Biped Walking[A];第二十四届中国控制会议论文集(上册)[C];2005年
中国博士学位论文全文数据库 前10条
1 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
2 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年
3 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年
4 李涛;基于简单曲线自适应逼近的平面连杆机构优化综合理论与方法的研究[D];大连理工大学;2000年
5 张徐亮;一种动态数据结构——池及其在VLSI电路布局设计中的应用[D];电子科技大学;2001年
6 许世刚;计算智能及其在水利水电工程中的应用[D];河海大学;2001年
7 杨启文;计算智能及其工程应用[D];浙江大学;2001年
8 樊昀;基于内容图像检索的一些关键技术研究[D];国防科学技术大学;2001年
9 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
10 赵新昱;模型规范化与多主体域组织模型研究[D];国防科学技术大学;2001年
中国硕士学位论文全文数据库 前10条
1 谢华;基于特征选择和质心构建的文本分类研究[D];大连理工大学;2010年
2 刘旭旺;全局优化理论几种算法的改进与研究[D];辽宁工程技术大学;2009年
3 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
4 姜新丽;基于强化学习的多机器人协作控制方法研究[D];沈阳理工大学;2010年
5 宋双;基于Berkeley DB的图像信息索引机制的设计与实现[D];南京航空航天大学;2009年
6 隋新;基于Agent的在线协作信任与协商优化研究[D];桂林电子科技大学;2010年
7 张叶蒙;多仿生机器鱼协调控制研究[D];天津大学;2010年
8 刘兴伟;混沌控制算法和基于混沌思维的优化算法及应用研究[D];西安理工大学;2000年
9 余正华;遗传算法在测控系统中的应用研究[D];华侨大学;2001年
10 石中盘;基于Client/Server模式智能辅助教学系统的应用研究[D];燕山大学;2001年
【二级参考文献】
中国期刊全文数据库 前1条
1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
【相似文献】
中国期刊全文数据库 前10条
1 赵根;;网络蜘蛛搜索基本策略研究[J];软件导刊;2009年02期
2 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期
3 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
4 李学勇,谭义红,田立军,欧阳柳波,李国徽;ε-贪婪策略在网络蜘蛛搜索策略中的应用[J];湖南工程学院学报(自然科学版);2004年02期
5 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
6 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
7 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期
8 李学勇,欧阳柳波,李国徽;非贪婪策略在WEB搜索中的应用[J];中央民族大学学报(自然科学版);2004年03期
9 张玲,林亚平,陈治平,童调生;基于综合价值的Web主题信息搜集策略研究[J];系统仿真学报;2005年02期
10 华伟臣;张秀琼;;网络蜘蛛搜索研究[J];乐山师范学院学报;2006年05期
中国重要会议论文全文数据库 前5条
1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 高新波;谢维信;饭田弘之;;一种基于模型的博弈树搜索策略[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
3 刘蔚;;基于试验设计分析的多学科优化方法在AUV概念设计中的应用[A];第十五届中国海洋(岸)工程学术讨论会论文集(上)[C];2011年
4 周剑军;欧阳宁;陈旭;黄先锋;;一种基于Harris特征点的图像拼接方法[A];全国第二届信号处理与应用学术会议专刊[C];2008年
5 卢丹丹;宿艳敏;张江华;尹智炜;任雷鸣;;Morris水迷宫实验中三种小鼠学习能力的对比研究[A];中国药理学会第十一次全国学术会议专刊[C];2011年
中国重要报纸全文数据库 前10条
1 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
2 李壮;专业搜索引擎涤荡搜索市场[N];中国高新技术产业导报;2005年
3 巫宁;旅游专业搜索引擎风生水起[N];中国旅游报;2005年
4 本报记者 童可;搜索引擎竞争升温行业细分时代来临[N];证券时报;2005年
5 本报记者  孙书博 郭望;搜索医药业的“百度”[N];医药经济报;2006年
6 本报记者  谢光飞;房地产专业搜索引擎要分市场一杯羹[N];中国经济时报;2006年
7 林洁珊;专业搜索引擎 特别信息一网打尽[N];江淮时报;2006年
8 记者  李佳师;朱剑涵:专家搜索引擎的商业价值[N];中国电子报;2007年
9 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
10 本报记者  李国训 实习记者 褚曼;雅虎中国重回门户[N];财经时报;2006年
中国博士学位论文全文数据库 前10条
1 梅建新;基于支持向量机的高分辨率遥感影像的目标检测研究[D];武汉大学;2004年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 颜力;飞行器多学科设计优化若干关键技术的研究与应用[D];国防科学技术大学;2006年
4 赵勇;卫星总体多学科设计优化理论与应用研究[D];国防科学技术大学;2006年
5 杨光;基于大型科学仪器工作站的屏幕图像识别与压缩技术研究[D];吉林大学;2011年
6 张焱;地面背景下成像目标跟踪技术研究[D];国防科学技术大学;2008年
7 王平;非结构化对等网络中的信任机制及搜索策略研究[D];西南大学;2010年
8 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
9 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
10 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
2 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年
3 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
4 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
5 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
6 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
7 张晓龙;网络蜘蛛垂直搜索算法的改进与实现[D];哈尔滨工程大学;2008年
8 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
9 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
10 袁凯;基于主题的网络蜘蛛的设计与实现[D];北京交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026