收藏本站
《吉林大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

面向专业搜索引擎的主题爬行技术研究

彭涛  
【摘要】: 本文针对面向专业搜索引擎的主题网页信息获取问题,对主题爬行技术进行了深入的研究,提出了基于链接上下文的自适应主题爬行方法,该方法采用(?)ζ-IDOM链接上下文方法,在主题爬行过程中不断使主题特征集合自我完善。实验结果表明,该方法在不断增强自适应性的情况下,不会发生主题漂移,所以具有一定的鲁棒性。 将原始的粒子群优化算法针对本文研究内容进行了改进,即BWPSO。测试实验显示,BWPSO和标准的PSO算法相比,在得到相同结果的情况下所需迭代次数更少。可见,采用BWPSO来求解最优化问题是可行的,而且效率要更高。对训练过程中迭代产生的网页分类器利用BWPSO进行优化组合,产生最终分类器。实验结果表明,通过对迭代产生的分类器进行优化组合,大大提高了网页分类性能。 针对互联网上的网页频繁发生着增加、更改及删除等变化,提出具有增量特性的主题爬行方法,即算法增量和数据增量。算法增量解决在初始训练集不完备的状况下,通过训练过程来自我完善;数据增量研究主要寻找和识别网页的动态变化规律,通过主题爬行保持网页的时新性。实验验证了该方法的有效性。 将隧道穿越(Tunneling)分为灰色隧道穿越(Grey Tunneling)和黑色隧道穿越(Black Tunneling),同时提出了两种隧道的穿越方法,实验结果显示,对上述两种隧道的穿越达到了预期的效果。 构建了一个专业搜索引擎:LookClearTSSE。通过本文建立的基于多种爬行策略主题爬行器LciSpider来获取特定领域网页信息,之后采用本文提出的增量索引结构来建立检索查询接口,对查询结果进行排序。实验验证了该方法的优越性。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前7条
1 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
2 黄轩;;辛亥革命史主题爬虫的设计与实现[J];电脑知识与技术;2011年13期
3 王树文;郑阔实;陈竟博;;面向教育主题的垂直搜索引擎的设计与实现[J];长春师范学院学报;2013年04期
4 辛玉玲;;搜索引擎相关技术研究概述[J];舰船电子工程;2008年10期
5 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
6 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期
7 王二红;寿永熙;马志强;李静;;多线程搜索器的设计与实现[J];内蒙古农业大学学报(自然科学版);2010年03期
中国重要会议论文全文数据库 前1条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
中国博士学位论文全文数据库 前4条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
4 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
2 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
3 吴宗坤;基于Fuse的资源搜索文件系统设计与实现[D];华南理工大学;2011年
4 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年
5 张丽娟;基于Lucene的面向主题爬行搜索引擎的应用研究[D];安徽理工大学;2011年
6 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
7 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
8 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
9 曹杰;基于Web挖掘的纺织专业搜索引擎设计[D];东华大学;2008年
10 刘彤;垂直搜索引擎技术研究与应用[D];西安建筑科技大学;2008年
【参考文献】
中国期刊全文数据库 前9条
1 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
2 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
3 张岩,李文辉,孟宇,庞云阶;应用PSO的快速纹理合成算法[J];计算机研究与发展;2005年03期
4 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
5 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 谢晓锋,张文俊,杨之廉;微粒群算法综述[J];控制与决策;2003年02期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
【共引文献】
中国期刊全文数据库 前10条
1 王成华;高文梅;李成;;粒子群优化算法搜索土坡临界非圆弧滑动面[J];四川建筑科学研究;2007年05期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
8 刘延明;陆克芬;方崇;;基于投影寻踪和粒子群优化算法的南宁市内河水质综合评价研究[J];安徽农业科学;2009年26期
9 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
10 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 刘羿彤;付梦印;高宏斌;;一种改进的PSO算法[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
6 李曙光;;粒子群算法在高速公路多路径费用拆分方法研究[A];第二十六届中国控制会议论文集[C];2007年
7 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
8 范业坤;梁新荣;;基于粒子群优化的高速公路匝道PI控制器[A];第二十七届中国控制会议论文集[C];2008年
9 丛亮;胡成全;郭宗鹏;姜宇;沙丽华;;基于模拟退火思想的基本粒子群算法改进[A];第二十七届中国控制会议论文集[C];2008年
10 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 戴运桃;粒子群优化算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2010年
2 谭佳琳;粒子群优化算法研究及其在海底地形辅助导航中的应用[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 朱怡;潜艇航行训练模拟器模型简化与参数优化研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 刘振宇;基于RFID与TD-SCDMA的家电生产过程信息追溯技术研究[D];中国海洋大学;2009年
7 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
8 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
9 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
4 邵晓路;蚁群群体智能网络可视化试验平台研制[D];浙江理工大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
7 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
8 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
9 姜婵娟;遥控式水下机器人PID运动控制算法优化研究[D];哈尔滨工程大学;2010年
10 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 陈明;论科技期刊论文的主题标引[J];安徽农业技术师范学院学报;1999年04期
3 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
4 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
7 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
8 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
9 李欣欣;王丽;姜瑾秋;;医学期刊论文主题标引存在的问题及对策[J];编辑学报;2006年05期
10 邓芳;XML文档到数据库数据转换研究[J];北京邮电大学学报;2004年01期
中国重要会议论文全文数据库 前1条
1 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 周英华;位置相关Web搜索的检索技术研究[D];中国科学技术大学;2006年
4 张国云;支持向量机算法及其应用研究[D];湖南大学;2006年
5 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
6 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
7 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 吴笑凡;基于主题地图的知识管理关键技术研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年
3 张丽娟;基于Lucene的面向主题爬行搜索引擎的应用研究[D];安徽理工大学;2011年
4 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
5 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
6 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
7 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
8 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
9 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
10 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
2 潘文富;郭友实;;网络舆情监测技术研究综述[J];福建电脑;2011年08期
3 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期
4 钱程;阳小兰;;一种支持Ajax框架的网络爬虫的设计与实现[J];计算机与数字工程;2012年04期
5 黄坤;董晓明;张剑;;Intranet搜索引擎设计与实现[J];计算机与数字工程;2012年05期
6 熊忠阳;史艳;张玉芳;;基于信息增益的自适应主题爬行策略[J];计算机应用研究;2012年02期
7 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期
8 段翰聪;王勇涛;李林;;EDFUSE:一个基于异步事件驱动的FUSE用户级文件系统框架[J];计算机科学;2012年S1期
9 彭浩;蔡美玲;陈继锋;刘炽;余炳锐;;面向导航型网页关键词自动抽取的视觉模型与算法[J];计算机应用;2012年08期
10 杜娟娟;郑丽英;;基于模拟退火遗传算法的主题爬虫搜索策略研究[J];科技风;2012年16期
中国重要会议论文全文数据库 前1条
1 曹俊喜;刘云;徐希源;;电力行业网络舆情监测分析技术研究与系统设计[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
中国博士学位论文全文数据库 前1条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 张天红;网络钓鱼预警系统设计与分析[D];电子科技大学;2010年
3 王振华;档案领域垂直搜索技术的研究与实现[D];东华大学;2011年
4 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
5 白瑾;基于群体特性的搜索方法研究[D];武汉理工大学;2011年
6 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
7 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
8 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
9 陈恒;基于内容的视频搜索引擎[D];北京邮电大学;2011年
10 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 王涛,李歧强;基于空间收缩的并行演化算法[J];中国工程科学;2003年03期
2 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
3 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
4 张利彪,周春光,马铭,刘小华;基于粒子群算法求解多目标优化问题[J];计算机研究与发展;2004年07期
5 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
6 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
7 徐海,刘石,马勇,蓝鸿翔;基于改进粒子群游优化的模糊逻辑系统自学习算法[J];计算机工程与应用;2000年07期
8 李爱国,覃征,鲍复民,贺升平;粒子群优化算法[J];计算机工程与应用;2002年21期
9 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
【相似文献】
中国期刊全文数据库 前10条
1 冯茜茜;;“谷歌杀手”柳暗未见花明[J];信息方略;2008年18期
2 秦艳友;高校教学资源专业搜索引擎的实现探讨[J];现代情报;2005年05期
3 ;FCI建设支持三种语言的新网站,并为中国用户提供一个专业搜索引擎[J];电子与电脑;2008年04期
4 ;国内第一个专业搜索引擎“艺术狗”诞生了![J];大艺术;2008年01期
5 赵新莉;图书馆专业搜索引擎的开发与设计[J];图书馆工作与研究;2002年03期
6 李敏州;;特搜引擎大补丸[J];网络与信息;2006年02期
7 张丽,张福顺;虚拟企业伙伴搜索系统的设计[J];信息与控制;2004年03期
8 刘雅晴;;隐蔽网络及其资源检索策略研究[J];情报科学;2006年05期
9 李一;;网络动态专业搜索引擎构建方法研究[J];情报探索;2010年03期
10 章成敏,章成志;国外农业搜索引擎评析[J];农业网络信息;2004年11期
中国重要会议论文全文数据库 前10条
1 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[A];福建省图书馆学会2008年学术年会论文集[C];2008年
2 王宁;王敏;冷荣新;;谈互联网上生物医学信息资源的获取[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
3 戴黎春;;Internet上的花式纱线资源[A];第十三届全国花式纱线及其织物技术进步研讨会论文集[C];2006年
4 高莉;;医学参考文献的查询与应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
5 朱凯;;网络资源的应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
6 韩晓军;;医学文献的查询与应用[A];应对突发公共卫生事件论坛论文集[C];2005年
7 陈文平;毛宽荣;赵严杰;;在互联网络中获取便秘相关信息[A];中华中医药学会肛肠分会换届会议暨便秘专题研讨会论文专刊[C];2007年
8 林海霞;原福永;陈金森;;主题网络蜘蛛搜索策略贪婪性解决方法[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
9 周一平;;利用Internet收集药理学资料(摘要)[A];中国药理学会第九届制药工业药理学术会议论文摘要汇编[C];2000年
10 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 李壮;专业搜索引擎涤荡搜索市场[N];中国高新技术产业导报;2005年
2 巫宁;旅游专业搜索引擎风生水起[N];中国旅游报;2005年
3 本报记者 童可;搜索引擎竞争升温行业细分时代来临[N];证券时报;2005年
4 本报记者  孙书博 郭望;搜索医药业的“百度”[N];医药经济报;2006年
5 本报记者  谢光飞;房地产专业搜索引擎要分市场一杯羹[N];中国经济时报;2006年
6 林洁珊;专业搜索引擎 特别信息一网打尽[N];江淮时报;2006年
7 记者  李佳师;朱剑涵:专家搜索引擎的商业价值[N];中国电子报;2007年
8 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
9 本报记者  李国训 实习记者 褚曼;雅虎中国重回门户[N];财经时报;2006年
10 晓谕;搜索引擎将引领钢贸行业进入新时代[N];现代物流报;2006年
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
2 胡春娜;基于Agent的专业搜索引擎及在管道信息检索中的应用研究[D];大庆石油学院;2010年
3 邹庆欣;基于Agent专业搜索引擎的研究[D];大连海事大学;2008年
4 赵士青;专业搜索引擎关键技术的研究[D];沈阳工业大学;2007年
5 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
6 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
7 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年
8 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
9 吕俊;化工专业搜索引擎系统架构设计与实现[D];北京化工大学;2005年
10 陈小峰;专业搜索引擎的数据存储研究[D];南京师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026