收藏本站
《中国科学院研究生院(计算技术研究所)》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题的Web信息采集技术研究

李盛韬  
【摘要】: 随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。 根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律: 在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在Web上的分布规律。 在定义主题和提出分类主题的基础上,给出了主题选择的方法。 采用Client/Server结构的Spider系统,允许多机同时采集,实现了全面、高效并且灵活的信息搜集。 在分析了HTML语法的基础上,给出了对html页面的主题、链接、标题的提取算法。 在URL与主题的相关性判定中,在扩展元数据方法RW、RWB和链接分析方法PageRank的基础上提出了IPageRank算法。 在页面与主题的相关性判定中,应用在自然语言处理中比较成熟的基于关键词的向量空间模型计算页面与主题的相似度。 试验结果显示,我们的工作是有效的,我们的系统有很强的实用价值,特别是URL与主题的相关性判定中的IPageRank算法,有较大的突破。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前10条
1 满鹏;;海量文档信息的高效检索算法[J];长春大学学报;2008年02期
2 张春明;;企业网站的Web使用挖掘[J];电脑知识与技术;2008年30期
3 李恒训;李南波;邱泳钦;徐燕;刘金刚;;基于结构驱动的网络论坛采集路径研究[J];计算机应用研究;2011年09期
4 曹志杰;;基于主题的Web挖掘技术在航天情报跟踪中的应用研究[J];情报科学;2009年05期
5 曾锡山;胡俊荣;;WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究[J];情报杂志;2010年08期
6 王斌;;从信息检索到搜索引擎[J];术语标准化与信息技术;2009年04期
7 张春元;康耀红;伍小芹;;Web新闻自动采集发布系统的设计与实现[J];计算机技术与发展;2009年09期
8 唐苏;刘循;;基于超链接引导和链接图分析的主题搜索引擎[J];计算机技术与发展;2011年02期
9 满鹏;;全文检索的原理与实现探讨[J];现代情报;2009年07期
10 白光祖;吕俊生;;基于WebSPHINX的主题搜索引擎原理研究与结构设计[J];现代图书情报技术;2007年11期
中国重要会议论文全文数据库 前3条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 樊勇;郑家恒;张虎;;网页去重系统的设计与实现[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前3条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 李卫;领域知识的获取[D];北京邮电大学;2008年
3 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
2 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
3 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
4 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
5 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
6 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
7 杨富生;IPTV系统图文信息自动采集关键技术研究与实现[D];北京邮电大学;2011年
8 柴松;基于K-means的网络话题自动检测技术研究[D];中国石油大学;2011年
9 石磊;模式可扩展的攻击图技术研究与实现[D];国防科学技术大学;2011年
10 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
【参考文献】
中国期刊全文数据库 前2条
1 朱淼良,邱瑜;移动代理系统综述[J];计算机研究与发展;2001年01期
2 马晓星;吕建;;分布式Web服务器技术综述[J];计算机科学;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 徐涛;张学东;;一种基于Mobile Agent的分布式主动防火墙体系结构[J];鞍山科技大学学报;2006年01期
2 邸向珍;赵守香;;基于移动Agent的电子商务模型的研究与分析[J];北京工商大学学报(自然科学版);2009年05期
3 张乃洲;;一种基于移动Agent的元搜索引擎模型[J];辽宁科技学院学报;2007年03期
4 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
5 刘波涛;基于流量监控的负载平衡策略[J];湖南文理学院学报(自然科学版);2005年01期
6 徐国芹;;基于AGLET的分布式入侵检测系统的研究[J];赤峰学院学报(自然科学版);2009年05期
7 方志祥,李清泉;基于Mobile Agent的地理信息动态服务模型[J];测绘通报;2005年03期
8 王丹,魏宝忠,于戈,王国仁;移动Agent在分布式平台上的研究与实现[J];东北大学学报;2002年05期
9 俞方桦 ,戴玮 ,陈家训;On Structure-based Web Data Extraction: The Model, Method and Application[J];Journal of China Textile University(English Edition);2000年04期
10 周海刚,肖军模;一种基于移动代理的入侵检测系统框架[J];电子科技大学学报;2003年06期
中国重要会议论文全文数据库 前10条
1 王文;高珏;严颖敏;马骄阳;;网络管理框架的演变及其发展趋势[A];2008年计算机应用技术交流会论文集[C];2008年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 周海刚;王志祥;肖军模;;基于移动代理的入侵检测系统的研究[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
4 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 杨良怀;唐世渭;王爱华;杨冬青;;XML代数及其查询优化方案[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
8 王小平;王丹;尤畅宇;王国仁;于戈;;基于XML的代理通信内容表达方法的研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
9 马轶;洪晓光;曲志红;;优化数据库WEB视图上的查询[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
10 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 刘建华;面向服务的物联网动态维护及其资源配置研究[D];上海大学;2012年
9 王敏毅;面向移动计算环境的分布对象技术[D];电子科技大学;2002年
10 姚绍文;语义化Web的关键技术及其应用研究[D];电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 房钦正;基于.NET的教学开放实验室管理信息系统的设计与实现[D];中国海洋大学;2010年
3 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
4 徐俊伟;适用于移动数据库的Agent技术研究[D];哈尔滨理工大学;2010年
5 王岩;扩展NS2的移动Agent仿真方法研究[D];哈尔滨理工大学;2010年
6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
7 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
8 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
9 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
10 王芳芳;基于Agent的网络信息检索[D];沈阳工业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 程微微;陆余良;夏阳;杨国正;;计算机网络脆弱性评估研究[J];安徽大学学报(自然科学版);2007年04期
2 吴克忠;;OA的新发展与协同办公——OA’2006办公自动化学术研讨会大会主题报告[J];办公自动化;2007年02期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
7 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
8 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
9 张建合;学术期刊编辑初审探微[J];编辑学报;2003年01期
10 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
中国重要会议论文全文数据库 前3条
1 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 朱慕华;朱靖波;陈文亮;;面向文本分类的多类别SVM组合方式的比较[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
6 甘永成;虚拟学习社区中的知识建构和集体智慧研究[D];华东师范大学;2004年
7 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
8 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
9 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
10 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
3 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
4 崔鹏;基于WEB构建项目管理信息系统[D];哈尔滨理工大学;2004年
5 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
6 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
7 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
8 黄瑞;基于KDD的知识自动获取及其应用[D];南京信息工程大学;2005年
9 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
10 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡启韬;袁志平;周忠海;;网络资源采集软件的设计及实现[J];电脑编程技巧与维护;2010年08期
2 严春风;;基于决策树的关键短语抽取的研究[J];电脑知识与技术;2009年20期
3 陈白云;;汇聚媒体资源 创新新闻搜索与热点分析服务平台[J];电脑知识与技术;2010年21期
4 赵芮;吴扬扬;;刻面检索在数据空间管理中的设计应用[J];电脑知识与技术;2011年06期
5 李晓鑫;;XiaoQBot网络爬虫设计与实现[J];硅谷;2011年13期
6 袁小洁;;基于Heritrix的商品信息搜索的网络爬虫系统的设计[J];电脑编程技巧与维护;2012年22期
7 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
8 王迎春;蔡东风;叶娜;;基于实体-属性框架的领域知识库构建[J];沈阳航空航天大学学报;2011年02期
9 唐涛;周俏丽;张桂平;;统计与规则相结合的术语抽取[J];沈阳航空航天大学学报;2011年05期
10 杨光熠;;热点新闻的采集与发布[J];黑龙江科技信息;2010年14期
中国博士学位论文全文数据库 前6条
1 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
2 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
3 刘智;网络社区危机信息传播与干预研究[D];中国科学技术大学;2010年
4 朱正祥;领域驱动知识发现方法研究[D];大连理工大学;2010年
5 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
6 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
2 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
3 梁越岭;互联网舆情信息挖掘与群体行为分析[D];武汉理工大学;2010年
4 郭剑;语义检索在出版社网站中的应用研究[D];北京印刷学院;2010年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 王利峰;增量文本聚类在舆情监控中的研究与实现[D];东华大学;2010年
7 戴璇;基于JAVA的职教类院校办公自动化系统设计与实现[D];电子科技大学;2010年
8 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
9 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年
10 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 刘彤;;个性化Web采集算法研究及其应用[J];贵州大学学报(自然科学版);2006年03期
2 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期
3 何鹏,徐立臻,庄晓青;模糊聚类在Web信息检索中的应用研究[J];计算机工程;2002年10期
4 赵力;;网站全文搜索引擎技术的初步研究及应用[J];科技信息;2009年11期
5 严良达;;基于Lucene搜索引擎的设计与实现[J];宁波职业技术学院学报;2009年02期
6 李俊青;季文天;彭菊萍;;局域网FTP搜索引擎的建立[J];计算机与信息技术;2007年09期
7 龚鸣敏;;Web搜索引擎的设计和实现[J];软件导刊;2006年07期
8 庞士梅;;覆盖聚类在Web信息检索中的应用研究[J];大学图书情报学刊;2006年04期
9 李秀学;;智能型搜索引擎研究[J];软件导刊;2006年15期
10 孙鉴亮;;智能型搜索引擎[J];科技咨询导报;2007年15期
中国重要会议论文全文数据库 前10条
1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 袁柳;李战怀;;基于语义搜索的Web服务匹配[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 姚静;郑佳谦;徐隽;牛军钰;;Intranet中Web对象的属性挖掘[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 买买提依明·哈斯木;维尼拉·木沙江;;研究维吾尔文Web文档聚类算法设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 许龙飞;陈小宁;;具有模糊语义的Web信息资源获取技术研究与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 张军;周立柱;郭奇;;基于语义模型的Web内容挖掘[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
2 ;HTML5[N];人民邮电;2010年
3 本报记者 边歆;八大安全威胁预示Web安全新变化[N];网络世界;2010年
4 ;有关社交Web的安全建议[N];网络世界;2009年
5 本报记者 汤浔芳;企业级Web 2.0很难突破10%[N];计算机世界;2010年
6 清水 编译;Web 3.0:互联网是你的私人助理[N];计算机世界;2010年
7 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
8 ;“云安全”技术被滥用几率将增[N];计算机世界;2008年
9 乐天 编译;语义Web:电脑能懂的网络[N];计算机世界;2011年
10 本报记者 胡钰;携程状告“去哪儿” 再设搜索雷区[N];华夏时报;2008年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
5 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
6 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
7 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
8 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
9 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
10 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
2 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
3 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
4 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
5 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
6 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
7 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
8 周晔;一种增量式并行Web信息采集系统[D];暨南大学;2005年
9 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
10 廖继东;基于DotLucene网站全文搜索系统的实现[D];郑州大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026