收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体演化的Deep Web数据抽取与注释

陈珂锐  
【摘要】:根据Web的信息存放和分布状况等特征可将Web划分成“表层网络”(Surface Web)和“深度网络”(Deep Web)两大类。Surface Web指的是使用超链接的方法将图片、文件等资源连接起,并通过点击这些超链接来读取的网页。不同于表层网络,Deep Web的信息都存储在后台数据库,仅提供给用户一个查询接口,通过用户提交的查询条件,自动生成包含查询结果记录的网页。 传统的搜索引擎主要是依靠超链接进行爬取,因此是无法检索到Deep Web站点包含的丰富信息。同时,抽取和集成Deep Web站点中的信息可运用于多种应用,例如为多个电子商务网站提供产品信息的比价购物服务,便于商家了解行情,并且实惠于消费者。有利于互联网中的门户网站提供更加专业和个性化的信息搜索服务。因此,对于Deep Web站点的资源进行数据抽取和集成,不仅可以产生可观的经济效益,而且可以提高传统搜索引擎的查全率和查准率。 本体可看作一种特殊类型的共享词典,具有自定义的结构化的特征,适用于计算机系统中描述特定领域之中概念以及概念之间的关系,使用本体进行数据抽取和注释可以摆脱传统方法对于网页结构本身的依赖,因此,本文提出了一种基于本体演化的数据抽取和数据注释方法。 本文具体的研究工作主要在四个方面: (1)根据Deep Web查询结果页面的数据的结构化特征,本文设计了一个较简单的七元组本体属性模型,可以很好的描述领域本体中的属性以及属性关系。 在构造本体中不仅考虑了查询接口的信息,而且还加入了查询结果中的实例信息,从而可构造出更加丰富的本体。本体中的属性信息是查询接口页面中的查询属性和查询结果页面中的实例信息的合集。 (2)对于查询结果页面的数据抽取操作分为数据记录区域的识别、数据记录分割、数据记录的对齐三个阶段。 基于“网页中包含有多个数据记录,通常包含有大量本体信息的数据记录可能是包含查询结果记录的数据区域”这一观察,本文提出了最大相关度子树算法用于识别查询结果数据区域,同时基于多个网页的视觉观察,设计了一系列的启发式规则用于数据的分割处理。 采用了部分树对齐算法来对齐同一数据源中产生的多个数据记录。该算法的主要思想是构造一棵递增的种子树来对齐多棵树。我们可以把一条数据记录看作一棵子树,一个数据记录区域包含几个数据记录,将具有几棵子树,最终构造出包含结点数目最多的种子树,该种子树可对齐同一数据源中的所有子树。 (3)对于查询结果页面中的数据注释操作,首先研究了重复数据记录识别的算法,从而避免不必要的注释操作,该方法综合了基于距离函数方法和基于机器学习方法的优点。 由于本体具有较好的语义信息,因此,本文提出用本体对抽取出的数据进行注释。对于数据抽取出的标签-值对的实例信息,按照标签项可分为了两种情况处理: 当标签项不为空时,对本体和标签-值对进行映射,并为该实例标注一个合适的标签; 当标签项为空时,基于“在Deep Web查询接口中,选取越合理的查询条件,Deep Web后台服务器将会返回尽可能多的查询结果信息。”这一观察,本文提出“查询条件重置”的方法,利用Deep Web查询结果返回的数据记录的个数来判断如何注释该实例。同时,提出了基于KBFS的K-beam搜索算法用于数据实例的注释预测,该方法不仅具有基于最大信息熵模型的预测模型的预测能力,而且还具有KBFS搜索算法探寻最优路径的优点。 (4)为了避免静态本体的知识表达有限性,本文提出了一种动态演化的本体用于数据抽取和注释。将演化过程分为:捕捉变化信息、变化信息的表示、语义的变化、本体演变的执行这四个阶段,并且制定了本体进行演化的三个基本规则,从而保证演化后的本体具有更丰富的信息,同时不存在语义冲突的问题。 本文虽然对Deep Web网页数据的抽取和注释进行了深入的研究,但其中某些关键技术仍然不是很成熟,还有一些后续的工作需要做,例如创建一个本体演化的性能评估标准,从而避免本体信息的过度膨胀。因此,我们还有许多工作需要进一步的改善和创新。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

知网文化
【参考文献】
中国期刊全文数据库 前5条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 崔晓军;彭智勇;曾承;;基于多标注源的Deep Web查询结果自动标注[J];计算机应用;2009年01期
3 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
4 陶皖;廖述梅;;补充反馈模块的深度标注框架研究[J];计算机技术与发展;2007年01期
5 黄健斌;姬红兵;孙鹤立;;近似重复记录的自适应距离度量检测[J];西安电子科技大学学报;2007年02期
中国博士学位论文全文数据库 前2条
1 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
2 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期
2 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
3 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
4 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期
5 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期
6 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期
7 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
8 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期
9 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
10 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
3 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
5 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
8 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
9 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
10 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
3 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
4 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年
5 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年
6 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
9 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年
10 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
5 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
6 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
9 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
10 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
3 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
4 寇月;申德荣;于戈;聂铁铮;;Combining Local Scoring and Global Aggregation to Rank Entities for Deep Web Queries[J];Journal of Computer Science & Technology;2009年04期
5 廖述梅;徐升华;陶皖;;带模板的结构化HTML文档深度标注框架[J];清华大学学报(自然科学版);2006年S1期
6 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期
7 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
8 寇月;申德荣;李冬;聂铁铮;;一种基于语义及统计分析的Deep Web实体识别机制[J];软件学报;2008年02期
9 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期
10 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
【相似文献】
中国期刊全文数据库 前10条
1 陈维斌,喻小光,陈启泉;组件式数据抽取工具的设计与实现[J];华侨大学学报(自然科学版);2002年04期
2 邓文红;周忠丽;宋振明;徐扬;;基于服务专业化的数据抽取方法研究[J];河南大学学报(自然科学版);2012年06期
3 石炎生;;数据抽取技术在区域卫生信息平台中的应用[J];电子技术;2013年03期
4 朱国强;刘厚泉;;基于发布/订阅技术的数据抽取[J];微计算机信息;2007年21期
5 李华;;人力资源管理系统中数据抽取模块的实现[J];电脑知识与技术;2008年05期
6 徐兆佳;;专业学术期刊网站附加数据抽取探讨[J];科协论坛(下半月);2010年04期
7 方钟亮;陈凌云;;批量检验报告数据抽取统计的实现[J];科技传播;2013年10期
8 赵岩梅;;论工商行业数据中心建设中数据抽取的技术实现方式[J];计算机与现代化;2009年08期
9 任靖福;;决策支持系统的数据抽取方法的研究[J];无线互联科技;2011年03期
10 罗恩韬;胡志刚;林华;;一种大数据时代海量数据抽取的开发模型研究[J];计算机应用研究;2013年11期
中国重要会议论文全文数据库 前4条
1 蒋理成;;增量数据抽取(ETL)技术[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 龚英弢;;Tribon M3系统快速绘图开发[A];2007年CAD/CAM学术交流会议论文集[C];2007年
4 闫洋洋;郝德建;王鹏;张软玉;;数字核信号智能采样理论和方法研究[A];第十六届全国核电子学与核探测技术学术年会论文集(下册)[C];2012年
中国重要报纸全文数据库 前3条
1 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
2 中青旅尚洋电子技术有限公司 史小六 陈如璇;细看集中技术[N];网络世界;2003年
3 ;中创软件电力信息整合方案[N];计算机世界;2006年
中国博士学位论文全文数据库 前4条
1 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
2 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 景寒星;基于标签树的列表页面数据抽取技术研究[D];华东师范大学;2011年
2 姚志鹏;数据抽取、转换、加载描述规范的研究与应用[D];青岛大学;2013年
3 冯全磊;分布式轨道监测数据抽取与可视化研究[D];大连理工大学;2012年
4 贾艳凯;多源异构增量数据抽取方法研究与设计[D];哈尔滨工程大学;2013年
5 李远敏;基于健康标准电子病历数据抽取模式挖掘研究[D];华中科技大学;2004年
6 姚竞争;TRIBON模型的数据抽取及二次开发[D];哈尔滨工程大学;2006年
7 赵巍伟;RETAIL LINK数据抽取和处理工具的设计与实现[D];上海交通大学;2011年
8 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
9 王贤;基于树结构的Deep Web数据抽取研究[D];昆明理工大学;2007年
10 徐晴;Web数据抽取技术及应用[D];华东理工大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026