收藏本站
《西南大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据集成关键技术及其在农业领域的应用

吴春明  
【摘要】:随着互联网的高速发展,大量信息资源由于被存储在Web数据库中而逐渐被深化,形成海量的Deep Web资源。由于Deep Web特殊的数据提供和访问方式,使目前已有的通用搜索引擎难以对其进行有效的索引,这为人们高效获取和利用这些数据带来了困难。Deep Web数据集成正是基于这一背景而提出的崭新的研究课题。 集成查询接口构建是实现Deep Web数据集成的重要组成部分,其中涉及众多关键技术,虽然目前学者们提出了许多解决方案,但总体上仍还处于探讨阶段,尚存在很多不足,如在Deep Web查询接口自动识别研究中,目前广泛采用了基于规则的判断方法,该方法缺乏动态适应性,且无法有效区分简单查询接口和通用搜索引擎表单;在基于文本的Deep Web分类研究中,有关特征项的选择目前尚无科学的量化标准,在特征项权重的计算上,已有方法由于没有深入考虑特征项对于分类作用的差异,导致构建的接口向量模型不够准确,一定程度上影响了分类精度;在查询接口模式抽取研究中,已有工作均没有充分利用接口表单的视觉布局信息;在接口属性间的模式匹配研究中,目前方法大多仅考查了语义相似度,而没有充分利用属性的类型、值域等其他元信息,且匹配精度还有待进一步提高。因此,无论是从研究思路还是在研究方法上都还需要更具创新性的深入探讨。 本文对以上几个关键技术展开研究,在对国内外已有成果进行归纳和总结的基础上,对每个问题都进行了深入、细致的分析,针对已有工作的不足,提出了相应的解决方案或改进措施,通过理论分析和一系列实验验证,表明本文所提方法具有较高的准确性和较强的可行性,有一定的实用价值。最后,以土壤数据为例,编制了土壤信息综合查询的Deep Web数据集成实验原型系统,探讨了这些技术在农业领域中的应用。主要研究工作如下: (1) Deep Web入口自动识别研究 Deep Web入口识别是进行Deep Web数据集成的基础。不同于以往的基于规则的判定方法,本文采用机器学习的思路,提出了一种利用神经网络进行Deep Web入口识别的方法。首先综合考虑了表单控件、控件属性、属性值以及部分关键词等影响因子,构建了入口自动识别模型;接下来,利用统计方法明确了Deep Web入口与非Deep Web入口之间的可区分特征;最后利用神经网络的自主学习机制来自动调整各影响因子的相关参数,避免了传统的基于规则的主观性和缺乏动态适应性等不足。实验证明了该方法的有效性,而且在简单DeepWeb入口与通用搜索引擎之间的可区分上也取得了较为满意的效果。 (2) Deep Web领域分类研究 对Deep Web进行领域分类可以实现对资源更有效的组织和管理。本文借鉴传统的文本分类算法思想,结合Deep Web查询接口的特点,提出了一种基于领域特征文本的Deep Web分类方法:1)给出了一种基于领域本体的语义抽象方法,对表达同一语义的不同词汇进行了概念抽象,有效增强了特征文本对领域的表征能力,同时达到了有效降维的目的:2)提出了一种“领域相关度”的评价方法,用于特征文本选择的量化标准,避免了传统的人工选择特征项所带来的主观性;3)在接口向量模型构建中,对传统的TFIDF方法进行了改进,提出了一种新的特征项权重计算方法W-TFIDF,更能体现不同特征文本对于分类所起作用的差异。实验证明,本文提出的特征文本选择方法是准确而有效的;相比传统的TF、TFIDF方法,W-TFIDF权重计算方法更为准确,能显著提高分类精度;综合利用本文选出的特征文本及W-TFIDF权重计算方法,能在K-NN分类算法中表现出较好的稳定性。 (3) Deep Web接口元素与标签匹配研究 Deep Web接口元素与标签匹配是查询接口理解和模式抽取的重要前提和基础。本文提出了一种基于视觉的元素—标签匹配方法,主要工作包括:1)提出了一种基于表格的表单重构方法—TBIExp,能通过对查询接口HTML源代码的分析,自动还原出该接口的视觉布局信息,且易于被程序处理;2)基于统计和观察,较为全面地总结了表单元素及其语义标签的位置关系和视觉特征,并依此构建了一套完整的启发式规则;3)提出了一种R3LEX匹配算法,依次进行了基于label标记的匹配、基于语义的匹配和基于位置的匹配,由于考虑的匹配因子较为全面,因此算法具有较高的匹配精度。实验证明了所提方法的有效性。 (4) Deep Web查询接口模式抽取研究 查询接口模式抽取是后继进行接口属性间模式匹配以及集成查询接口构建的重要基础和前提。本文将接口属性域间的关系看作是树形结构,并以前面提出的TBIExp表单重构方法为基础,提出了一种自底向上的层次聚类方法,主要工作包括:1)全面考查了影响属性分组的因素,提出了7条属性分组模式,并按分组模式的影响范围对其进行了重要性排序,为后继的属性聚类提供了依据;2)提出了一种基于TBIExp的模式树层次构造算法—BUCluster,由于TBIExp本身已包含了查询接口的视觉信息,因此相比以前的工作,该方法更为直观准确;3)基于查询接口模式树,提出了一种基于启发式规则的属性标签抽取和匹配方法AttrLEX。实验表明,以上模式抽取方法较已有工作的准确率得到了全面提升。 (5) Deep Web接口属性间的模式匹配研究 模式匹配是Deep Web数据集成中一个基础而又困难的关键技术。本文针对在集成查询接口构建中各接口属性间的模式匹配问题进行了研究,有效解决了属性间1:1简单匹配和1:m复杂匹配的问题。主要工作包括:1)提出了一种利用领域词汇表和领域本体来对接口文本进行规范化的方法,使语义相似度的计算更为科学准确;2)在进行属性相似度评价时,充分考虑了属性元信息之间的语义相似度、领域相似度以及值域相似度,避免了传统的单纯利用语义信息或统计信息进行模式匹配的不足;3)给出了对各类相似度进行量化计算的公式和方法;4)提出了一种利用神经网络来实现属性间1:1的模式匹配方法,有效解决了人为指定相应参数带来的不确定性;5)在1:1匹配结果的基础上,提出了一种基于查询接口模式树进行1:m匹配的方法,该方法不仅简单直观,而且能获得令人满意的匹配精度。实验证明了以上工作的合理性和有效性。 (6) Deep Web集成技术在农业领域的应用研究 以全国第二次土壤普查中江津地区的土壤数据为例,编制了“江津土壤信息综合查询”的Deep Web数据集成实验原型系统,能针对给定的查询条件,实现同时对多个Web数据库进行查询的功能,一方面综合检验了本文所提技术的合理性,另一方面探讨了相关技术在农业领域的应用问题。 综上所述,本文系统地对Deep Web集成接口构建所涉及的几个关键技术展开了研究,针对目前Deep Web入口识别中基于规则方法的不足,采用机器学习的思路,提出利用神经网络进行接口识别的方法,避免了基于规则方法缺乏动态适应性的不足,而且能有效区分简单查询接口与通用搜索引擎表单;针对目前基于文本的Deep Web分类中存在的不足,定义了具体的量化标准用于领域特征文本的选择,避免了人工选取带来的主观性和不确定性,此外,给出了一种改进的特征项权重计算方法,使构建的接口向量模型更为科学准确,能显著提高分类精度;针对目前查询接口模式抽取中没有充分利用视觉信息的不足,提出了一种基于视觉的标签抽取和匹配方法,给出了一种基于表格的接口重构技术,进一步提高了后继模式抽取以及模式匹配的准确率;针对目前Deep Web集成技术在农业领域应用的欠缺,编制了土壤信息综合查询的Deep Web实验集成系统,从技术角度为实现农业信息资源的有效获取和深层次利用进行了有益的探索和尝试。
【学位授予单位】:西南大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 申德荣;刘丽楠;寇月;聂铁铮;于戈;;一种面向Deep Web数据源的重复记录识别模型[J];电子学报;2010年02期
2 杨丽华;袁方;姚增利;王煜;;基于启发式规则的Deep Web接口发现[J];河北大学学报(自然科学版);2010年01期
3 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
4 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
5 张治;施鹏飞;;一种有效的贪婪模式匹配算法[J];计算机研究与发展;2007年11期
6 缪嘉嘉;李爱平;贾焰;吴泉源;;Deep Web集成中数据模式映射失效检测方法研究[J];计算机研究与发展;2008年S1期
7 马安香;张斌;高克宁;齐鹏;张引;;基于结果模式的Deep Web数据抽取[J];计算机研究与发展;2009年02期
8 申德荣;马也;聂铁铮;寇月;于戈;;一种应用于Deep Web数据集成系统中的查询松弛策略[J];计算机研究与发展;2010年01期
9 寇月;李冬;申德荣;于戈;聂铁铮;;D-EEM:一种基于DOM树的Deep Web实体抽取机制[J];计算机研究与发展;2010年05期
10 洪辉;李石君;余伟;田建伟;;基于语义的中文Deep Web查询接口集成[J];计算机科学;2008年03期
中国博士学位论文全文数据库 前2条
1 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
2 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前1条
1 钟昕;Deep Web模式匹配技术研究[D];苏州大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 刘青峰;尹久仁;;神经网络智能诊断技术在混凝土结构中的理论实现与展望[J];四川建筑科学研究;2007年01期
2 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
3 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
4 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
5 胡莲;刘仲英;詹锦川;;生猪养殖企业质量安全保障能力评价研究[J];安徽农业科学;2006年07期
6 马丽丽;贺超兴;纪建伟;张志斌;;基于BP神经网络番茄果实横纵径生长的建模研究[J];安徽农业科学;2008年06期
7 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
8 何旭涛;连志春;;跨越连接多层神经网络的稳定性[J];辽宁科技大学学报;2008年02期
9 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
10 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
中国重要会议论文全文数据库 前10条
1 李娜;高广勇;何宏启;曹阳;;基于神经网络模型的室内空气品质评价方法研究[A];2011中国环境科学学会学术年会论文集(第四卷)[C];2011年
2 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
3 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 李琼;李正文;钱一雄;王咸彬;;塔中围斜区东河砂岩地震速度分布特征与储层预测[A];中国西部复杂油气藏地质与勘探技术研讨会论文集[C];2006年
6 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
7 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 程婧容;殷冬梅;谈振藩;;基于TMS320 DSP实现感应电机故障检测的人工神经网络设计法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 李红礼;高建华;卢红岩;;基于BP神经网络的河南省土地可持续利用评价研究[A];第十届中国科协年会“新时期河南土地供需态势与城乡统筹发展”论坛文集[C];2008年
10 邓松;万常选;;基于用户反馈的Web多媒体数据源的选取[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
5 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
6 刘贵;精毛纺织品虚拟加工中的预报与反演模型研究[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
4 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
5 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
6 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
7 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
8 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
9 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
10 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 陈鹏;刘烈宏;;深度web资源搜索关键技术[J];北京航空航天大学学报;2009年01期
3 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
4 黄勤;龚海清;刘金亨;孔祥龙;;基于改进的遗传神经网络入侵检测系统[J];重庆理工大学学报(自然科学版);2010年02期
5 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
6 刘柏嵩;高济;;通用本体学习框架研究(英文)[J];Journal of Southeast University(English Edition);2006年03期
7 刘丽楠;寇月;孙高尚;申德荣;于戈;;一种deep web数据源下重复记录识别模型(英文)[J];Journal of Southeast University(English Edition);2008年03期
8 刘柏嵩;一种面向语义Web的数字图书馆框架[J];大学图书馆学报;2003年01期
9 邹权;郭茂祖;王晓凯;张涛涛;;基于关键字树的DNA多序列星比对算法[J];电子学报;2009年08期
10 陈光禹,李为民;一种基于神经网络的ICCAT专家系统测试方法的研究[J];电子学报;1994年08期
中国博士学位论文全文数据库 前4条
1 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
2 付相君;基于本体和Semantic Web技术的产品知识集成基础研究[D];浙江大学;2005年
3 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
4 张锦;Internet环境下协同工作与数据挖掘研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前2条
1 杨柳;基于文本的中文本体知识获取的研究[D];中国科学院研究生院(计算技术研究所);2006年
2 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
2 鲁晶晶;左山;张亚涛;王学谦;;Deep Web数据源聚类分类算法研究[J];科技信息(学术研究);2008年30期
3 刘超;刘妍;;基于Deep Web数据查询接口的抽取与集成[J];硅谷;2008年23期
4 林培光;吕超;;领域Web数据库查询接口的自动发现[J];江西师范大学学报(自然科学版);2008年02期
5 王冉冉;王刚;黄青松;;基于Deep Web的信息采集系统[J];计算机技术与发展;2007年10期
6 周爱武;李玉梅;周闪闪;王宝铜;;基于返回结果的Deep Web查询接口识别[J];计算机技术与发展;2009年07期
7 王兵;王轲;;Deep Web数据源聚类与分类[J];计算机与现代化;2007年08期
8 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
9 周旭;赵耀;刘海博;;Deep Web资源集成研究[J];科技信息(科学教研);2007年35期
10 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
中国重要会议论文全文数据库 前10条
1 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
5 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
6 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 胡鹏昱;苗忠义;崔志明;方巍;;扩展的Deep Web质量估计模型研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国博士学位论文全文数据库 前10条
1 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
2 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
3 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
4 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
7 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 颜无瑕;Deep Web数据集成中模式匹配研究[D];曲阜师范大学;2011年
2 陈佳佳;Deep Web数据集成研究及其在购书领域中的应用[D];暨南大学;2010年
3 陈尚安;林业企业黄页Deep Web数据集成研究[D];北京林业大学;2012年
4 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
5 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
6 龚桂芬;基于查询接口的Deep Web模式匹配方法研究[D];苏州大学;2011年
7 窦会涛;面向Deep Web数据集成的数据融合问题研究[D];山东大学;2012年
8 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
9 韩亮;图书领域Deep Web查询接口集成研究[D];河北大学;2010年
10 陈雅冰;基于领域的Deep Web查询接口抽取[D];华南理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026