收藏本站
《苏州大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web分类搜索引擎关键技术研究

高岭  
【摘要】: 随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep Web。 Deep Web信息获取至今仍然是一个新兴的研究领域,也受到越来越多研究人员的重视。为了方便用户获取使用某领域的Deep Web信息,本文提出了一个Deep Web分类搜索引擎的系统架构,依据这个系统架构对Deep Web分类搜索引擎中若干关键问题进行了分析研究,并提出了相关的算法和模型。本文主要研究的工作包括: (1)对中国Deep Web资源的规模、分布、结构等进行了调查研究。 (2)针对传统搜索引擎爬虫程序在Deep Web领域的缺陷,设计了一个面向Deep Web的聚焦爬虫,并提出了Deep Web查询接口的判定方法。 (3)采用一种高效的Web数据库内容获取算法,对Web数据库内容进行采样,并对采样得到的页面进行分析,去除了无关信息,最终得到Web数据库的内容摘要。 (4)依据雅虎的分类目录,提出了一种将Deep Web站点接口页面与数据库内容摘要相结合的方法,对Deep Web资源进行分类。 本文最后设计和实现了一个针对中文的Deep Web分类搜索引擎原型系统Deep Searcher,并对文中提出的算法进行了实验和分析。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 李强;;Deep-Web搜索引擎实现技术研究[J];甘肃科技;2012年03期
2 乔爱丽;;深网信息资源及其在图书馆信息服务中的应用[J];图书馆学研究;2010年02期
中国博士学位论文全文数据库 前1条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前8条
1 檀康;基于深度网页爬虫搜索引擎原型的研究和实现[D];东华大学;2010年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 王桦;基于广度优先的主题爬虫的设计与实现[D];复旦大学;2011年
4 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
5 李齐会;深网查询接口判定技术的研究[D];武汉理工大学;2009年
6 杨洋;基于多Agent系统的专利采集系统研究[D];北京工业大学;2010年
7 杨丽华;基于规则的Deep Web接口发现与抽取研究[D];河北大学;2010年
8 王欢;林业黄页信息自动分类技术研究[D];北京林业大学;2012年
【参考文献】
中国期刊全文数据库 前9条
1 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
2 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期
3 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
5 邓顺国;试论搜索引擎的发展趋势[J];图书馆理论与实践;2003年05期
6 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
7 廖述梅;徐升华;陶皖;;带模板的结构化HTML文档深度标注框架[J];清华大学学报(自然科学版);2006年S1期
8 高志奎,曹锦丹;对中文网站信息分类体系的调查与比较[J];图书馆学研究;2003年12期
9 宋斌,方小璐;基于网页特征的TFIDF改进算法[J];微计算机应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
5 董文鸳;;深网及其查找途径探析[J];图书与情报;2005年06期
6 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
7 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
8 田苗苗;许建潮;汪津;丁桂英;;基于遗传算法的Web信息自动标引研究[J];吉林大学学报(信息科学版);2006年05期
9 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
10 程仁贵;;带反向词频的中英文词典的设计[J];重庆工学院学报(自然科学版);2008年11期
中国重要会议论文全文数据库 前9条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
5 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
6 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
7 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
8 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
9 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
10 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
3 李敏;赵君;;垂直搜索引擎爬虫系统的设计[J];长江大学学报(自然科学版)理工卷;2010年03期
4 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
5 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 洪亮;田支斌;;浅析中文环境下的Apach Commons HttpClient编程[J];电脑知识与技术;2008年22期
8 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
9 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
10 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
中国博士学位论文全文数据库 前2条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
2 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
4 匡桂娟;广度优先搜索算法在互连网络通信中的应用[D];青岛大学;2005年
5 成光;基于XML/XSLT的动态网页自动生成系统研究与实现[D];苏州大学;2006年
6 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
7 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
8 何中天;从深度网入口中抽取SCHEMA[D];吉林大学;2007年
9 徐莹莹;使用表单分类器识别特定领域的深度网入口[D];吉林大学;2007年
10 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
【二级引证文献】
中国期刊全文数据库 前6条
1 田素端;;专利检索系统中专利信息采集模块的研究[J];科技致富向导;2012年11期
2 王帅;周国民;王健;;主题爬虫相关度算法研究综述[J];计算机与现代化;2013年04期
3 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期
4 李巧蓉;;浅论图书馆信息检索可视化技术[J];兰台世界;2013年02期
5 王益强;赵静;;网页文本数据自动采集方法综述[J];信息与电脑(理论版);2012年09期
6 翟东升;张欣琦;张杰;康宁;;分布式专利信息抽取系统设计与构建[J];现代图书情报技术;2013年Z1期
中国博士学位论文全文数据库 前1条
1 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
2 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
3 禾文汇;基于BI的专利数据整合分析研究及实现[D];北京工业大学;2011年
4 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
5 张春丽;Deep Web集成查询系统预处理关键技术研究[D];大连海事大学;2012年
6 田莉;我国深层网络信息资源的获取及保存策略研究[D];郑州大学;2012年
7 袁昕;面向主题的专利分析系统[D];北京工业大学;2012年
8 康宁;基于分布式多Agent系统的二层专利数据库信息获取系统研究[D];北京工业大学;2012年
9 卞继方;基于.NET的专利信息管理系统的设计与实现[D];中国海洋大学;2012年
10 崔琳;基于WebGIS平台的物流监控系统的研究[D];大连海事大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 苏瑞竹,吴英姿;论网络信息资源的组织[J];广西民族学院学报(自然科学版);2001年04期
3 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期
4 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
5 张英朝,张维明,肖卫东,黄金才;信息网格中基于本体的信息共享全局视图构建方法研究[J];计算机研究与发展;2004年10期
6 廖述梅;;基于本体的语义标注原型评述[J];计算机工程与科学;2006年09期
7 李广建,黄崑;元搜索引擎及其主要技术[J];情报科学;2002年02期
8 董慧,余传明;基于Internet的信息组织研究[J];情报学报;2001年01期
9 洪漪,梁树柏;分类法在信息网络中的应用[J];情报学报;1998年01期
10 张莉扬;Yahoo的信息组织方式及其在数字图书馆信息资源建设中的应用[J];图书情报知识;2001年03期
【相似文献】
中国期刊全文数据库 前10条
1 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
2 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
3 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
4 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
5 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
6 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
7 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
8 藕军;任明仑;左春荣;章成志;;中文Deep Web的大小、质量及分布[J];情报学报;2008年02期
9 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
10 茅琴娇;冯博琴;潘善亮;;Deep web站点查询界面的潜在语义分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
中国重要会议论文全文数据库 前10条
1 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
9 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘冬兰;Deep Web数据抽取中自适应包装器问题研究[D];山东大学;2013年
2 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
3 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
4 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
5 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
6 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
7 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
8 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
9 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
10 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026