收藏本站
《苏州大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web分类搜索引擎关键技术研究

高岭  
【摘要】: 随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep Web。 Deep Web信息获取至今仍然是一个新兴的研究领域,也受到越来越多研究人员的重视。为了方便用户获取使用某领域的Deep Web信息,本文提出了一个Deep Web分类搜索引擎的系统架构,依据这个系统架构对Deep Web分类搜索引擎中若干关键问题进行了分析研究,并提出了相关的算法和模型。本文主要研究的工作包括: (1)对中国Deep Web资源的规模、分布、结构等进行了调查研究。 (2)针对传统搜索引擎爬虫程序在Deep Web领域的缺陷,设计了一个面向Deep Web的聚焦爬虫,并提出了Deep Web查询接口的判定方法。 (3)采用一种高效的Web数据库内容获取算法,对Web数据库内容进行采样,并对采样得到的页面进行分析,去除了无关信息,最终得到Web数据库的内容摘要。 (4)依据雅虎的分类目录,提出了一种将Deep Web站点接口页面与数据库内容摘要相结合的方法,对Deep Web资源进行分类。 本文最后设计和实现了一个针对中文的Deep Web分类搜索引擎原型系统Deep Searcher,并对文中提出的算法进行了实验和分析。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 李强;;Deep-Web搜索引擎实现技术研究[J];甘肃科技;2012年03期
2 乔爱丽;;深网信息资源及其在图书馆信息服务中的应用[J];图书馆学研究;2010年02期
中国博士学位论文全文数据库 前1条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前8条
1 檀康;基于深度网页爬虫搜索引擎原型的研究和实现[D];东华大学;2010年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 王桦;基于广度优先的主题爬虫的设计与实现[D];复旦大学;2011年
4 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
5 李齐会;深网查询接口判定技术的研究[D];武汉理工大学;2009年
6 杨洋;基于多Agent系统的专利采集系统研究[D];北京工业大学;2010年
7 杨丽华;基于规则的Deep Web接口发现与抽取研究[D];河北大学;2010年
8 王欢;林业黄页信息自动分类技术研究[D];北京林业大学;2012年
【参考文献】
中国期刊全文数据库 前9条
1 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
2 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期
3 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
5 邓顺国;试论搜索引擎的发展趋势[J];图书馆理论与实践;2003年05期
6 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
7 廖述梅;徐升华;陶皖;;带模板的结构化HTML文档深度标注框架[J];清华大学学报(自然科学版);2006年S1期
8 高志奎,曹锦丹;对中文网站信息分类体系的调查与比较[J];图书馆学研究;2003年12期
9 宋斌,方小璐;基于网页特征的TFIDF改进算法[J];微计算机应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
5 董文鸳;;深网及其查找途径探析[J];图书与情报;2005年06期
6 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
7 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
8 田苗苗;许建潮;汪津;丁桂英;;基于遗传算法的Web信息自动标引研究[J];吉林大学学报(信息科学版);2006年05期
9 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
10 程仁贵;;带反向词频的中英文词典的设计[J];重庆工学院学报(自然科学版);2008年11期
中国重要会议论文全文数据库 前9条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
5 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
6 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
7 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
8 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
9 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
10 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
3 李敏;赵君;;垂直搜索引擎爬虫系统的设计[J];长江大学学报(自然科学版)理工卷;2010年03期
4 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
5 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 洪亮;田支斌;;浅析中文环境下的Apach Commons HttpClient编程[J];电脑知识与技术;2008年22期
8 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
9 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
10 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
中国博士学位论文全文数据库 前2条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
2 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
4 匡桂娟;广度优先搜索算法在互连网络通信中的应用[D];青岛大学;2005年
5 成光;基于XML/XSLT的动态网页自动生成系统研究与实现[D];苏州大学;2006年
6 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
7 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
8 何中天;从深度网入口中抽取SCHEMA[D];吉林大学;2007年
9 徐莹莹;使用表单分类器识别特定领域的深度网入口[D];吉林大学;2007年
10 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
【二级引证文献】
中国期刊全文数据库 前2条
1 田素端;;专利检索系统中专利信息采集模块的研究[J];科技致富向导;2012年11期
2 王益强;赵静;;网页文本数据自动采集方法综述[J];信息与电脑(理论版);2012年09期
中国硕士学位论文全文数据库 前8条
1 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
2 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
3 禾文汇;基于BI的专利数据整合分析研究及实现[D];北京工业大学;2011年
4 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
5 张春丽;Deep Web集成查询系统预处理关键技术研究[D];大连海事大学;2012年
6 田莉;我国深层网络信息资源的获取及保存策略研究[D];郑州大学;2012年
7 袁昕;面向主题的专利分析系统[D];北京工业大学;2012年
8 康宁;基于分布式多Agent系统的二层专利数据库信息获取系统研究[D];北京工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 苏瑞竹,吴英姿;论网络信息资源的组织[J];广西民族学院学报(自然科学版);2001年04期
3 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期
4 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
5 张英朝,张维明,肖卫东,黄金才;信息网格中基于本体的信息共享全局视图构建方法研究[J];计算机研究与发展;2004年10期
6 廖述梅;;基于本体的语义标注原型评述[J];计算机工程与科学;2006年09期
7 李广建,黄崑;元搜索引擎及其主要技术[J];情报科学;2002年02期
8 董慧,余传明;基于Internet的信息组织研究[J];情报学报;2001年01期
9 洪漪,梁树柏;分类法在信息网络中的应用[J];情报学报;1998年01期
10 张莉扬;Yahoo的信息组织方式及其在数字图书馆信息资源建设中的应用[J];图书情报知识;2001年03期
【相似文献】
中国期刊全文数据库 前10条
1 陈丽君;;聚焦爬虫常见算法分析[J];电脑知识与技术;2008年S1期
2 徐莹;;深网及其有效检索策略[J];农业图书情报学刊;2006年03期
3 彭华;;隐形网络研究综述[J];图书馆学刊;2007年04期
4 杜光芹;张化祥;赵瑞东;;主题Web挖掘研究[J];计算机技术与发展;2008年02期
5 王朝斌;金洪颖;赵刚;;基于本体的搜索引擎研究[J];西华师范大学学报(自然科学版);2010年04期
6 陈红勤;埋藏的web财宝——隐形网络的搜索利用[J];现代情报;2005年07期
7 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
8 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
9 ;关键词搜索[J];每周电脑报;2000年38期
10 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
2 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026