收藏本站
《黑龙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的主题搜索应用技术研究

谢冬松  
【摘要】: 进入新世纪以来,互联网络上的Web空间发展日益迅速,Web信息在很多方面得到了广泛的应用,人们对Web信息的领域本体相关性和领先性的要求越来越高。基于Web的主题搜索技术的发展和演进,已经成为有效开启互联网络知识宝库的关键之匙。Web信息搜索服务主要通过国内外一些成熟的搜索引擎站点提供。 但是,目前被搜索引擎广泛采用的Web信息获取爬虫系统存在着明显的缺陷,缺陷是系统只能依据超链在Web空间里遍历公开被索引的Web页面,而对占据大部分Web空间的隐含型Web页面缺乏有效的获取手段。隐含型Web页面通常指那些由用户与站点Web信息数据库通过查询表单Form发生交互而动态产生的,带有明显领域主题色彩的Web页面。针对这一问题,本文展开了对隐含型Web页面信息获取技术的研究。在吸取国内外相关网络爬虫系统理论知识的基础上,新总结出了符合中文Web页面呈现规律的,领域相关数据源接口Form启发式发现与过滤原则,并基于Form领域本体相关性由其所包含表单项的领域相关度决定这一思想,提出了一个新的Form领域相关度自动识别算法。在此基础上,本论文设计并实现了一个具有隐含型Web信息获取能力的网络爬虫系统。其中包括系统的整体架构和功能模块划分,给出了系统分析、处理查询表单Form和优选查询词汇的具体方法和算法。而后基于教育领域本体词汇库,实现了一个实验性的,面向教育领域隐含型Web信息获取的网络爬虫系统。通过对领域内多个站点的实际爬行测试,证明了系统的有效性。
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前3条
1 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
2 雷粉红;网络科技资源质量评价方法的研究[D];西北大学;2010年
3 孙轩;主题搜索引擎的关键技术研究与实现[D];武汉理工大学;2010年
【参考文献】
中国期刊全文数据库 前6条
1 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
2 陆有军;张大陆;;基于搜索的Web本体系统[J];计算机应用;2006年06期
3 郑冬冬;崔志明;;Deep Web查询接口选择[J];计算机应用;2006年09期
4 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期
5 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
6 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 黄婉秋,黄筱霞,贾旭光;XML语言及其应用[J];北京工商大学学报(自然科学版);2002年03期
3 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
4 王柯;基于XML的计算机自动阅卷技术的研究[J];郴州师范高等专科学校学报;2003年02期
5 张磊,刘鲁源,谈贤芳;客户关系管理系统表示层的设计[J];燕山大学学报;2003年02期
6 胥少卿;路建伟;钱叶魁;苗德成;;基于SVG的战术标图系统设计与研究[J];电光与控制;2006年02期
7 吴教育,叶和平,李广明;基于MATHML数据库应用的三层WEB计算模式[J];东莞理工学院学报;2004年02期
8 赵磊,孙莉,陈家训;为中小企业度身定做的EDI:XDI[J];东华大学学报(自然科学版);2003年02期
9 周娴,黄昶 ,方晓颖;基于XML解析技术的Visio图与应用程序间的数据交互[J];电脑学习;2005年06期
10 刘清瑞;张强;;IEC 61970中应用的几项主要软件技术[J];电力自动化设备;2006年06期
中国重要会议论文全文数据库 前5条
1 卿旭;韦录丰;;基于XML电子文件格式发布研究[A];广西计算机学会2007年年会论文集[C];2007年
2 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 唐敏;李昭原;;基于XML的Web数据库工具的设计与实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
8 张宏展;对象Web计算环境下基于XML的中间件技术研究[D];西北工业大学;2002年
9 林中伟;扩展企业资源计划及其若干关键技术研究[D];南京航空航天大学;2004年
10 石军;基于XML的智能信息处理研究[D];西安电子科技大学;2003年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
4 王浩;基于XML的开放式工业机器人解释器的研究[D];华南理工大学;2010年
5 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
6 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
7 苏伟兵;个性化Web商务信息融合关键技术研究[D];浙江大学;2010年
8 肖启靖;潍坊蓝盾公司人力资源管理系统设计与实现[D];山东大学;2010年
9 胡开胜;基于WEB元数据抽取的ETL资源整合模型研究与实现[D];湖南师范大学;2010年
10 潘高源;Deep Web查询结果抽取技术的研究[D];吉林大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张伟;周秉根;;基于灰色理论的旅游业与国民经济关联性分析[J];国土资源科技管理;2008年02期
2 ;Grey Problems of a Mechanical Transmission System in a Reliability Study[J];International Journal of Plant Engineering and Management;2001年02期
3 罗佑新;灰色决策在换热器评价中的应用[J];化工装备技术;1994年01期
4 ;“比较”购物及其技术实现[J];互联网周刊;2000年10期
5 何中市;刘里;;基于上下文关系的文本分类特征描述方法[J];计算机科学;2007年05期
6 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
7 潘昊;谭龙远;;领域相关自适应的PageRank算法搜索策略[J];计算机应用;2008年09期
8 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期
9 苏占东,杨炳儒,游福成;基于信息挖掘的智能决策支持系统的结构设计[J];计算机应用研究;2005年03期
10 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
中国博士学位论文全文数据库 前6条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 刘玲利;科技资源配置理论与配置效率研究[D];吉林大学;2007年
3 贺金凤;质量绩效评价模型与方法研究[D];西北工业大学;2006年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 谢乃明;灰色系统建模技术研究[D];南京航空航天大学;2008年
6 王巍;政府领导绩效评价模型与评价技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
2 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
3 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
4 柳靖;网络科技资源汇集模型研究与应用[D];大连理工大学;2007年
5 李君梅;基于Web Community识别的聚焦爬虫算法研究与设计[D];浙江大学;2008年
6 杨贞;基于本体的主题爬虫的设计与实现[D];合肥工业大学;2008年
7 赵士青;专业搜索引擎关键技术的研究[D];沈阳工业大学;2007年
8 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年
9 魏艳萍;公路线形设计质量评价方法的研究[D];大连理工大学;2008年
10 潘皓;营房节能效果评价方法的研究[D];长安大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前6条
1 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
2 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
3 姜琨;主题搜索引擎中的爬取技术研究[D];国防科学技术大学;2011年
4 史丛;网络搜索引擎的相关技术研究[D];山东科技大学;2011年
5 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
6 王腾飞;基于Solr的分布式实时全文检索系统的设计与实现[D];云南大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
【相似文献】
中国期刊全文数据库 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
4 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
5 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
8 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
9 唐素勤;刘立浩;;一种面向语义Web的智能教学系统[J];计算机教育;2011年15期
10 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
中国重要会议论文全文数据库 前10条
1 Bill Hillier;;History and The Form of Cities[A];《营造》第五辑——第五届中国建筑史学国际研讨会会议论文集(上)[C];2010年
2 ;Normal Form of General Logic Mappings[A];中国自动化学会控制理论专业委员会D卷[C];2011年
3 Lutz Birnbaumer;;Heteromeric Coassembly of TRPV4,TRPC1 and TRPP2 to Form a Flow-sensitive Channel[A];第八届海峡两岸心血管科学研讨会论文集[C];2011年
4 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
5 砂田久一;長谷川正樹;谷野忠嗣;;The Granulation is The Most Important Process for Producing Solid Dosage Form:The repprt of SFRA[A];生物颗粒与粉体制备、应用技术研讨会论文集[C];2010年
6 谌贻荣;陆勤;李文捷;崔高颖;;一种基于共享后缀术语集改进中文核心领域本体构建的方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 冯瑾;;初始领域本体获取研究——以国际共运领域为例[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年
8 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
9 刘干中;B.S.;M.D.;;AN ANTI-TUMOUR TCM FORMULA COMPOSED OF ANIMAL EXTRACTS[A];海峡两岸三地药理学学术报告会论文汇编[C];2001年
10 ;Stabilization of Networked Nonholonomic Control Systems in Chained Form[A];中国自动化学会控制理论专业委员会B卷[C];2011年
中国重要报纸全文数据库 前10条
1 ;及时申领FORM——E享受最大关税优惠[N];中国经营报;2009年
2 安徽 季林生;用好VB的PrintForm语句[N];电脑报;2002年
3 生物引擎;IBM和GeneFormatics联手开发新药[N];中国高新技术产业导报;2002年
4 沈卓;南通地区1月份FORM E签证量激增[N];中国国门时报;2010年
5 周杰 胡亚 钟慧;享受降税优惠 企业并不主动[N];国际商报;2005年
6 ;告别针打时代[N];计算机世界;2002年
7 广西 李健 浙江 黄云;编程日日帖[N];电脑报;2005年
8 安徽 芮同心;让对话框弹出变得“温柔”[N];电脑报;2001年
9 励荣 施向军;用好FORM E证书这把“金钥匙”[N];中国国门时报;2009年
10 云飞;在VB中用注册表保存软件的设置[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
2 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
3 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
4 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
5 王备战;基于KM的电子政务技术的研究与实现[D];西北工业大学;2003年
6 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
7 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
8 杨迪雄;隔震结构优化设计和工程数值方法中的混沌[D];大连理工大学;2004年
9 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
10 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
中国硕士学位论文全文数据库 前10条
1 谢冬松;基于Web的主题搜索应用技术研究[D];黑龙江大学;2007年
2 夏磊;基于本体和互信息的查询语义扩展模型的研究[D];西南大学;2008年
3 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
4 牟冬梅;本体在医学数字信息资源知识组织中的应用研究[D];吉林大学;2005年
5 史军强;WEB信息集成技术研究[D];电子科技大学;2005年
6 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
7 叶剑;基于领域本体的E-Learning系统研究[D];华中师范大学;2011年
8 付佳佳;基于叙词表的领域本体建模研究[D];华东师范大学;2006年
9 许琳;基于本体的个性化信息服务用户模型构建研究[D];吉林大学;2008年
10 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026