收藏本站
《湖南大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念树的主题爬取技术研究

曾义聪  
【摘要】:网络机器人的爬取方式一般可分为无遗漏爬取和主题爬取。企图爬取Web上所有页面的无遗漏爬取消耗巨大的存储和带宽资源,同时用户利用它很难找到他们特定需要的Web文档。而主题爬取只搜索属于特定语义相关主题的重要Web文档的WWW子集,减少了网络流量和下载量,发展主题爬取技术显得非常重要。但目前的主题爬取技术仍有一些欠缺,主要表现为由初始URL链接导向某目标主题集的能力有限,当与目标主题集的邻近区域没有相关的文档时,导向其它不相邻的主题区域的能力不足。 本文在研究Web页面爬取原理与网络机器人关键技术的基础上,提出了基于概念树的主题爬取方法(简称FCMCT方法),它利用领域概念树赋予待爬取的URL对象以层次语义,以期改进主题爬取的采集率性能。在FCMCT方法中,由目标主题,从领域概念树中获取“knowledge-path”,按照“knowledge-path”构造主题层次;Web文档与主题层(语义不相关层除外)都表示为类主题词的向量形式,采用余弦相似度判断它们之间的相似性;将Web文档中所析取的URL链接分配至与该文档相关的主题层对应的等待队列,从而赋予了URL链接以Web文档内容方面的层次语义信息;考虑赋予URL链接以类主题词的层次语义和其它度量的组合对各等待队列排序。因此待爬取URL链接对象具有Web文档内容与类主题词两方面的层次语义信息。 基于FCMCT方法,采用非递归方式和多线程机制构造了一个基于概念树的主题搜索机器人原型。基于内存的作业管理器,负责管理爬取过程中URL链接的加入、排序、分配等作业。使用线程池管理多个爬取器线程,并发爬取Web文档。 实验表明,与传统不考虑主题层次语义的基于文档分类结构的主题爬取方法相比,FCMCT方法,由初始URL链接更快导向某目标主题集的Web文档。同时,当与目标主题集的邻近区域没有相关的文档时,逐步放宽主题范围,在较宽的主题中爬取,能较快地导向其它不相邻的主题区域。 总之,在主题爬取过程中,考虑层次语义,对于改进主题爬取的采集率具有显著作用。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.09

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 李广丽;;基于网页内容评价和Web图的启发式垂直搜索策略的设计[J];情报理论与实践;2009年09期
中国硕士学位论文全文数据库 前4条
1 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
2 苏菲菲;精准营销中观点爬取与需求匹配技术的研究与实现[D];东北财经大学;2011年
3 罗艳霞;基于语义的Web服务发现研究[D];武汉理工大学;2007年
4 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
【参考文献】
中国期刊全文数据库 前7条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 李建清,林作铨,刘升平,周谢慧;基于本体的动态信息收集Agent[J];计算机工程与应用;2003年33期
3 厉宇航,罗振声,程慕胜;基于概念层次的英文文本自动分类研究[J];计算机工程与应用;2004年11期
4 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
5 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
6 李振东,费翔林;基于概念的信息检索模型研究[J];南京大学学报(自然科学版);2002年01期
7 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 张军丽,张延芳;探讨Java课程教学中的基本输入输出问题[J];阿坝师范高等专科学校学报;2005年03期
2 李异球;;基于嵌入式WEB的电视播出监控系统[J];安防科技;2008年12期
3 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期
4 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
5 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期
6 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期
7 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期
8 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
9 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期
10 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
中国重要会议论文全文数据库 前10条
1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
2 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
4 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
5 杨昆;王军;彭双云;;基于Ontology的空间信息互操作初步研究[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 范志煜;肖兵;沈薇薇;;基于概率本体的态势估计应用研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
7 贾凌燕;陆一平;;浅谈ontology方法及其发展[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
8 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
9 王晓东;孙滨;李学威;;商空间模型下不确定本体知识推理研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
10 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
3 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年
4 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年
5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
6 金胜勇;目标导向型图书馆信息资源共建共享理论体系研究[D];南开大学;2010年
7 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年
8 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
9 魏巍;定制产品智能重组设计关键技术与方法研究及其应用[D];浙江大学;2010年
10 王德鑫;四路摄像头协同多重触控技术研究与实现[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
3 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
4 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
5 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
6 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
7 刘海娇;基于魔力平台的需求分析系统的研究与实现[D];哈尔滨工程大学;2010年
8 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年
9 卫剑平;基于本体的可定制用户界面研究与实现[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
3 许正良,欧志广,徐颖;顾客服务模式选择及顾客服务组织匹配问题的研究[J];商业研究;2005年15期
4 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
5 李旭倩;甄力;;MFC网络蜘蛛流程分析[J];电脑编程技巧与维护;2008年09期
6 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
7 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
8 张静;张妍;;正则表达式及其在信息抽取中的应用[J];电脑知识与技术;2009年15期
9 宫婷;;基于用户兴趣的元搜索引擎检索结果合成技术[J];电信快报;2009年07期
10 唐壹勋;;正则表达式在批量新闻网页处理中的应用[J];福建电脑;2008年03期
中国博士学位论文全文数据库 前2条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
2 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
3 索金琳;基于桌面的特定领域meta-search系统的研究[D];河海大学;2002年
4 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
5 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
6 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
7 滕跃;基于用户兴趣的个性化WEB检索[D];清华大学;2004年
8 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
9 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
10 陈勇;中医药主题搜索网络机器人的研究与实现[D];西南交通大学;2005年
【二级引证文献】
中国期刊全文数据库 前3条
1 李广丽;张红斌;;面向计算机教育资源的垂直搜索引擎系统的设计[J];情报理论与实践;2010年05期
2 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
3 张红斌;曹义亲;;混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J];现代图书情报技术;2011年03期
中国硕士学位论文全文数据库 前10条
1 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
2 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
3 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
4 赵志军;基于分布式的垂直搜索引擎的研究与实现[D];北京信息控制研究所;2011年
5 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
6 李娟;铁业清算系统的研究[D];北京交通大学;2008年
7 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
8 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年
9 黄书娟;基于Web的垂直搜索引擎的研究[D];武汉理工大学;2012年
10 朱敏;基于Lucene的垂直搜索引擎的研究与实现[D];成都理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前8条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
3 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
4 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
5 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
6 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
7 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
8 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【相似文献】
中国期刊全文数据库 前10条
1 王亚军;;嵌入式Linux内核中的等待队列操作[J];单片机与嵌入式系统应用;2010年07期
2 孟小峰,王珊;ORACLE并发控制技术分析[J];计算机研究与发展;1991年12期
3 王跃,于书举;LINUX文件系统实时监控方法[J];北京工业大学学报;2004年04期
4 李雪斌;王昌晶;;信号量机制在Linux中的实现[J];计算机与现代化;2007年04期
5 赵鹏飞;李先国;叶敏;;基于网络存储的等待队列调度模型的设计[J];计算机工程与科学;2006年01期
6 郑瑞卿;黄国斌;;操作系统同步研究——Linux内核同步机制[J];电脑知识与技术;2005年35期
7 陈友贵;王兆平;;Linux同步机制研究[J];电脑知识与技术;2010年04期
8 张齐;劳炽元;;轻量级协议栈LWIP的分析与改进[J];计算机工程与设计;2010年10期
9 田时镁;Occam—并发系统的仿真工具——银行出纳排队系统仿真的研究[J];计算机工程与设计;1988年02期
10 许璟峰;;对μC/OS-Ⅱ操作系统超时等待机制缺陷的分析[J];电脑知识与技术;2009年33期
中国重要会议论文全文数据库 前10条
1 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 张卓亮;;基于Linux系统的USB HOST驱动程序设计与实现[A];第五届中国通信集成电路技术与应用研讨会会议文集[C];2007年
3 操凤萍;窦万峰;董泉源;;基于四叉树索引的区域版本并发控制研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
4 周丽梅;秦超;江雷;彭海文;赵建军;;抗洪抢险医疗队疾病救治流程仿真与优化研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
5 阎志远;朱建生;贾成强;;客票系统5.0版中连接交易管理服务器的设计与实现[A];中国铁路客票发售和预订系统5.0版应用研讨会论文集[C];2006年
6 莫晓莉;王汝传;张琳;;基于移动代理和信任机制的网格作业管理[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 陈萍;宋自林;冒俊峰;;Linux的管道机制及其访问控制技术的改进[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
8 吴春胤;陈联诚;俞守华;;基于AgMES的搜索引擎的设计与实现[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
9 唐金辉;钟诚;吴惜华;莫英红;李效鲁;林瑞;;基于对象复制机制的Web服务动态容错算法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 佟岩;;多服务台单队列模型中用户等待时间的计算[A];第九届中国青年信息与管理学者大会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 中国农业银行 唐树明;软硬兼施构筑农行安全卫士[N];计算机世界;2002年
2 LSI Logic公司 Tracy Bowden Jayme Bruno;SATA正在渐进增长[N];中国计算机报;2004年
3 江南计算技术研究所 王飙 陈皖苏;多核处理器的九大关键技术[N];计算机世界;2006年
4 晓柯;让城市导航者名副其实[N];中国计算机报;2002年
5 《网络世界》评测实验室 于洋;监视系统性能[N];网络世界;2004年
6 中国研究中心 蔡弘;一种支持多种智能移动设备的服务平台(二)[N];中国计算机报;2000年
7 ;“供需不见面 选择不充分”[N];人民政协报;2003年
8 ;国产品牌抢夺集群话语权[N];计算机世界;2004年
9 夏天;英立讯ZINGSERV方案[N];计算机世界;2001年
10 本报记者 方芳;电话预约挂号统一 114[N];北京日报;2011年
中国博士学位论文全文数据库 前6条
1 宛斌;基于NAT-PT的流媒体调度公平性研究[D];东南大学;2006年
2 王康平;群体智能新方法在优化和模拟中的研究[D];吉林大学;2008年
3 许昱玮;VANETs中面向交通状态的车辆主动探测方法研究[D];南开大学;2012年
4 王浩;Internet视频组播中的码率控制、性能增强及流调度算法研究[D];清华大学;2002年
5 姜建华;数据网格几个关键技术的研究[D];吉林大学;2010年
6 葛雄资;基于预取的磁盘存储系统节能技术研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 赵鹏飞;存储区域网络虚拟化管理软件的研究与实现[D];西北工业大学;2005年
2 刘贤斐;服务Agent的建模与规划调度系统[D];上海交通大学;2009年
3 郭煜;蠕虫特征分析与抑制方法研究[D];北京交通大学;2008年
4 邢玉梅;基于Agent智能交通信号灯控制的研究[D];吉林大学;2008年
5 陈丹敏;基于B方法的嵌入式实时操作系统的设计[D];河南大学;2009年
6 李莉;基于CPN的Multi-Agent调度系统建模与仿真[D];北京工业大学;2008年
7 王超;大型舰船医疗服务系统的仿真分析[D];哈尔滨工程大学;2012年
8 张莹;机场地面空中交通容量评估系统的进一步研究[D];南京航空航天大学;2006年
9 单甪;基于COMIP与μClinux的嵌入式系统研究[D];北京邮电大学;2006年
10 罗炜;嵌入式实时操作系统关键技术的研究[D];湘潭大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026