收藏本站
《西安电子科技大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

深网数据集成与挖掘关键问题的建模及算法研究

李雁妮  
【摘要】:随着Web在线数据库(Web DataBase, WDB)的激增,Web正在迅速地“深化”。通过WDB对外提供的唯一入口(表单/查询接口)有效地集成与挖掘蕴藏在深网WDB中海量丰富的信息十分必要和迫切。由于WDB查询接口嵌入在浩瀚的Web页面中,具有规模巨大、动态变化、异质和分布稀疏的“大数据”4V特征,因此,深网数据集成与挖掘的若干关键问题:如特定领域WDB入口的自动发现与识别、查询接口模式匹配和查询接口集成等一直是亟待解决的挑战性难题。本文针对已有算法对问题缺乏抽象建模,大多采用启发式或尝试与纠错的低效算法而无法有效求解问题的缺陷,采用抽象和形式化描述与问题求解方法,对上述关键问题的有效建模方法及可行高效算法进行了系统研究,所做工作及取得的主要研究成果如下: 1)针对特定领域的WDB入口的自动发现与识别问题,作者首先将问题抽象为多目标优化问题,建立了多目标优化模型。之后,采用“分而治之”的思想,基于所提出的新的两步页面分类算法、链接打分机制、爬虫爬行停止条件和断点保护等一系列优化策略/算法,设计并实现了一种特定领域的高效的WDB聚焦表单爬虫E-FFC。理论分析与实验结果表明: E-FFC中所采取的各种优化策略/算法正确有效,其性能优于现有公开文献的特定领域的WDB聚焦表单爬虫。之后,为了进一步改进E-FFC的性能,作者给出了基于智能代理的可进行并行爬行的特定领域WDB聚焦表单爬虫框架iCrawler; 2)针对特定领域查询接口集成中的模式匹配问题,作者基于所提出的查询接口属性负相关度量公式、语义相似度度量公式,有效地选择了三个模式匹配器,采用所构建的领域本体树及修正的证据理论组合规则,提出并实现了一种高效可行的特定领域的WDB查询接口复杂模式匹配算法; 3)针对特定领域的WDB查询接口集成问题,作者首先将查询接口建模成一棵其对应属性的层次化有序树(简称为模式树),识别出了属性在其模式树应满足的三种约束:层次约束、组约束和顺序约束,提出了量化这三类属性约束的度量方法:属性约束矩阵。发现并证明了查询接口模式树与其对应的属性约束矩阵所存在的唯一对应关系。在此基础上,将查询接口集成问题转化为多目标优化问题,给出了问题模型,提出了一种基于模型的可行高效的问题求解算法; 4)针对在深网数据集成与挖掘系统中所面临的信息公共模式抽取问题:MLCS问题,作者采用所提出的有效的数据划分、快速非支配分层排序及前向比较操作、并发线程调度等策略,提出并实现了一种改进的基于支配点的高效MLCS并行算法,该算法有效地解决了基于支配点的MLCS算法的性能瓶颈问题,是对已有的基于支配点的MLCS算法的较大改进。之后,作者对MLCS问题进行了更进一步深入的研究分析,揭示并理论证明了现有基于支配点的MLCS算法框架所存在的时间性能瓶颈和缺陷。针对此性能瓶颈和缺陷,提出了求解问题的无冗余公共子序列有向无环图(ICSG),并基于反链、并行集合、并行集合链(PCC)等概念,建立了问题模型ICSG+PCC。提出了分别通过一次正向和反向拓扑排序优化ICSG图(删除了其中所有的非关键点)的方法,创新性地提出了一种基于ICSG+PCC模型的新型高效的MLCS并行算法,理论分析与实验结果表明:所提出的MLCS并行算法的时间复杂度达到了线性级别,以压倒的优势优于现有最好的基于支配点的MLCS并行算法。
【学位授予单位】:西安电子科技大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 马玉祥;冯骁;;Deep Web数据集成中模式匹配算法的研究[J];西安欧亚学院学报;2009年01期
2 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
3 孙素云;;基于元数据集成检索系统的设计与实现[J];广东轻工职业技术学院学报;2007年02期
4 郭东伟;李三义;张仲明;刘淼;;基于模型匹配的Deep Web数据库分类[J];吉林大学学报(理学版);2011年03期
5 周琼;;Deep web结构化数据集成研究综述[J];科技信息;2009年09期
6 张云坤;;基于Deep Web数据集成的个性化信息服务研究[J];现代情报;2010年10期
7 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
8 姜芳艽;孟小峰;;Deep Web数据集成中查询处理的研究与进展[J];计算机科学与探索;2009年02期
9 都艺兵;林培光;;基于Deep Web的图书搜索引擎系统设计[J];计算机与数字工程;2009年09期
10 张庆福;万麟瑞;;基于SOA的异构数据集成软件架构研究[J];计算机技术与发展;2011年05期
中国重要会议论文全文数据库 前10条
1 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 王铎;李文辉;公正;江琦;;深层网查询接口的自动集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
6 李昭原;刘瑞;陈微;;开放—分布—异构多数据库互连查询接口的基本框架[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
7 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
8 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 王四维;申德荣;李英军;聂铁铮;寇月;;应用词法分析方法抽取Web查询接口模式[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
10 胡明耀;唐常杰;金朋伟;;数据库汉语自然语言查询接口IDCQ设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国博士学位论文全文数据库 前10条
1 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
2 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
3 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 张文江;地质灾害数据集成关键技术研究[D];成都理工大学;2013年
6 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
10 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 金灵芝;Deep Web集成查询接口生成技术研究[D];中南大学;2009年
2 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
3 缪建明;集散控制系统的数据集成的研究与应用[D];福州大学;2003年
4 刘军;分布式智能异构数据集成支持系统的原型实现[D];大连海事大学;2003年
5 李凯;面向SCM数据集成的DW解决方案研究[D];大连理工大学;2006年
6 文静;数据集成中数据冲突检测和解决方法研究[D];山东大学;2010年
7 张雪洁;基于XML的数据集成平台框架及关键技术研究[D];河海大学;2004年
8 周艳芳;基于XML的ERP和电子商务数据集成[D];四川大学;2004年
9 袁红;保险公司数据集成关键技术的研究及应用[D];重庆大学;2004年
10 常萍英;基于OPC的机器人焊接生产线监控系统的数据集成及软件开发[D];东南大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026