收藏本站
《复旦大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web集成中若干技术研究

徐和祥  
【摘要】: Web信息,根据蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大类。其中:Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web是指通过填写表单(Form)形成对网站后台数据库的查询而得到的动态页面。如何有效地组、管理Deep Web信息,快速、准确地访问用户所需要的信息是当前信息科学和技术领域面临的一大挑战。随着动态网页技术的发展和日益成熟,Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,而对Deep Web的研究也越来越受到人们的关注。作为组织和处理大规模Deep Web信息的关键技术,Deep Web数据集成可一定程度上解决用户访问互联网中这些“深度”数据库的需求;同时,Deep Web数据集成的相关技术在信息检索、数据挖掘、数据抽取、个性化服务、数字图书馆等领域有广阔的应用前景。 本文研究内容和创新工作主要包括以下几点: (1)Deep Web集成模式的研究 现实中Deep Web的类型多种多样,用户需求也各不相同,需要考虑不同情况的Deep Web数据集成。论文研究了Deep Web间的关系,以及这些关系对Deep Web数据集成系统查询处理的约束,并在此基础提出Deep Web数据集成的集成模式,以及不同集成模式下查询处理的过程。为不同类型Deep Web数据集成的进一步研究和应用提供参考。 (2)基于机器学习的Web数据库分类 大量的deep Web源的存在,对他们的分类是通向deep Web分类集成和查询的关键步骤。论文提出了一种Deep Web表示模型和基于机器学习的分类模型,并在此基础上提出一种新的权重计算方法。实验结果表明:这种分类方法经过少量样本训练后,就能达到很好的分类效果;且随着训练的样本的增加,该分类器的性能保持稳定。 (3)基于本体的Deep Web查询接口分类 本体是一种知识表示模型,用来在某个特定领域中定义基本术语、关系和一些规则,并将之表示成机器可读的形式。针对deep Web查询接口,论文提出一种分类本体模型和建立本体的推理规则,并提出了deep Web空间向量模型(VSM)。试验表明,这种分类方法具有良好的分类效果。 (4)基于知识的deep Web集成环境变化处理的研究 研究了Deep Web集成环境中构件的依赖关系,在此基础上,论文提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考。实验结果表明,该方法不仅可以处理Deep Web集成环境的变化,还可以大幅度提高集成系统的性能。 (5)基于Deep Web的个性化服务的研究 个性化推荐可以实现“信息找人”,可一定程度上解决由于海量信息而导致的“信息过载”和“信息迷向”问题。论文提出了一种基于Deep Web的个性化服务的框架,包括:基于资源元数据描述为语义基础的用户兴趣模型、Deep Web爬虫和个性化推荐,并在个性化推荐的算法中提出了一种新的基于语义的相似度度量方法。最后,基于上述思想的基础上,开发了一个科技文献推荐系统,使用户在尽可能少的参与下,就完成科技文献的个性化服务。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前1条
1 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期
中国博士学位论文全文数据库 前1条
1 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
中国硕士学位论文全文数据库 前6条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
3 庄伟;基于本体的构件信息标注方法[D];华中科技大学;2012年
4 万世涛;基于Deep Web的文献检索辅助系统的研究[D];长春工业大学;2013年
5 陈威;一种针对Deep Web深层数据获取的网络爬虫设计与实现[D];华中师范大学;2013年
6 王静;面向互联网舆情分析的海量数据检索模型关键技术研究[D];首都师范大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 张铭,邓志鸿,陈捷,杨冬青,唐世渭;数字图书馆科技文献知识导航[J];计算机工程与应用;2002年17期
6 张锦,唐亮,龙峰,胡运发;一种基于CLIPS的轻量级规则语言系统实现[J];计算机工程;2004年05期
7 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
8 夏治坤;周宁;;元搜索引擎对成员搜索引擎的选择研究[J];情报探索;2007年02期
9 杨立;左春;王裕国;;基于语义距离的K-最近邻分类方法[J];软件学报;2005年12期
10 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
中国博士学位论文全文数据库 前2条
1 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
2 张锦;Internet环境下协同工作与数据挖掘研究[D];复旦大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
3 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
4 李龙澍;;软件体系结构风格综述[J];安庆师范学院学报(自然科学版);2006年04期
5 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
6 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
7 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
8 廖礼萍;鲍有文;刘畅;;基于工作流技术的办公自动化系统模型研究[J];北京联合大学学报(自然科学版);2007年03期
9 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
10 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 刘建华;曹红苹;;基于.NET +SQL Server的多层BLOG系统研究与实现[A];广西计算机学会2010年学术年会论文集[C];2010年
3 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
4 董淑英;;一般社会系统的系统模型与信息系统架构模型[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
5 陈亮亮;孔祥艳;程甜甜;李云飞;;基于体系结构和面向构件的虚拟仪器开发方法[A];2007'中国仪器仪表与测控技术交流大会论文集(一)[C];2007年
6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 赵磊;徐士华;赵国生;;基于Wright的SA级测试路径生成方法[A];第六届中国测试学术会议论文集[C];2010年
8 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 杨年华;模型驱动架构中的可信嵌入式软件建模与分析[D];华东理工大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 张晶;面向钢铁质量过程控制的分布式并行软件框架模型研究[D];昆明理工大学;2009年
5 杨春花;软件体系结构中状态方面的编织研究[D];山东大学;2010年
6 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
7 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
8 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
5 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
6 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
7 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
8 王永伟;基于构件的形式化方法在软件开发中的应用研究[D];哈尔滨工程大学;2010年
9 向楷;软件构件的可信评价及其组装方法的研究[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
4 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
5 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
6 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
7 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
8 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
9 常继传,李克勤,郭立峰,梅宏,杨芙清;青鸟系统中可复用软件构件的表示与查询[J];电子学报;2000年08期
10 蔡怡峰;彭鑫;钱乐秋;;面向语义构件检索的交互式查询方案生成[J];电子学报;2008年08期
中国博士学位论文全文数据库 前3条
1 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
2 唐彬;基于本体的构件检索研究[D];复旦大学;2007年
3 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
2 纪文彦;基于本体的Deep Web查询转换技术研究[D];吉林大学;2011年
3 陈雅冰;基于领域的Deep Web查询接口抽取[D];华南理工大学;2011年
4 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
5 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
6 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
7 黄隽毅;关于Web数据挖掘中HITS算法的研究[D];大连理工大学;2004年
8 赵瑞华;网络舆论的特征及功能研究[D];暨南大学;2005年
9 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
10 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 郭晓霞;王磊;席岩;王晓艳;汪瑛;;基于网络的视频内容检索与盗版追踪溯源研究[J];广播与电视技术;2011年07期
2 陈建峡;李倩倩;王春枝;;基于Nutch搜索引擎的E-learning系统开发[J];湖北工业大学学报;2011年05期
3 赵海霞;李道申;刘勇;赵嘉诚;;一种Deep Web查询结果的实体抽取方法[J];计算机工程与应用;2012年36期
4 王果;戴冬;;基于双向热点跟踪的搜索引擎优化模型[J];计算机应用与软件;2013年02期
5 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期
6 陈诚;;基于云计算的智慧城市垂直搜索技术研究[J];软件产业与工程;2012年04期
7 王孟頔;邰泳;薛安荣;;基于Hadoop平台的人才发现与推荐系统研究[J];软件导刊;2014年01期
8 刘琳;;基于Nutch的医学信息搜索引擎研究与实现[J];软件导刊;2014年06期
9 王燕平;;基于文献计量的我国搜索引擎研究现状和热点分析[J];现代情报;2012年07期
10 刘兴邦;赵晓娇;;基于Nutch的物流信息平台网页资源定向采集系统[J];物流技术;2012年13期
中国博士学位论文全文数据库 前1条
1 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前7条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 陈车前;基于Nutch的并行搜索系统的优化设计[D];华南理工大学;2011年
3 刘庆龙;主题搜索引擎的研究与实现[D];云南大学;2011年
4 崔琳;基于WebGIS平台的物流监控系统的研究[D];大连海事大学;2012年
5 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
6 梁淼;面向问答类网站的垂直搜索引擎的研究与实现[D];北京邮电大学;2013年
7 杜超利;时空要素驱动的事件网页信息检索方法研究[D];南京师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 胡誉耀;元搜索引擎在数字图书馆中的运用[J];图书与情报;2003年05期
3 刘柏嵩;高济;;通用本体学习框架研究(英文)[J];Journal of Southeast University(English Edition);2006年03期
4 刘柏嵩;一种面向语义Web的数字图书馆框架[J];大学图书馆学报;2003年01期
5 杨芙清,梅宏,吕建,金芝;浅论软件技术发展[J];电子学报;2002年S1期
6 张健奕;搜索引擎的新发展——元搜索引擎[J];河南图书馆学刊;2002年02期
7 吕建;陶先平;马晓星;胡昊;徐锋;曹春;;基于Agent的网构软件模型研究[J];中国科学E辑:信息科学;2005年12期
8 范明,李川;在FP-树中挖掘频繁模式而不生成条件FP-树[J];计算机研究与发展;2003年08期
9 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
10 向俊莲,杨杰,梅宏;基于软件体系结构的构件组装工具ABC-Tool[J];计算机研究与发展;2004年06期
中国博士学位论文全文数据库 前3条
1 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
2 付相君;基于本体和Semantic Web技术的产品知识集成基础研究[D];浙江大学;2005年
3 张锦;Internet环境下协同工作与数据挖掘研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前2条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
2 杨柳;基于文本的中文本体知识获取的研究[D];中国科学院研究生院(计算技术研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
2 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
3 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
4 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
5 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
6 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
7 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
8 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
9 刘高勇;汪会玲;吴金红;;基于语义Web Service的Deep Web动态竞争情报采集[J];情报杂志;2008年03期
10 鞠彦辉;许燕;;Deep Web信息资源开发策略研究[J];现代情报;2008年01期
中国重要会议论文全文数据库 前10条
1 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
6 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
2 刘冬兰;Deep Web数据抽取中自适应包装器问题研究[D];山东大学;2013年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
6 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
7 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
8 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
9 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
10 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026