收藏本站
《武汉大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于形式概念分析的Web数据库抽取研究

张卓  
【摘要】:基于Web的应用需要获取Web页面的数据.随着互联网的发展,Web网页越来越多的由Web服务器端程序动态产生.发现并且抽取这样的深网页面是一件困难的任务.而在线Web数据库是构成深网的重要组成部分,其结构化的数据更利于Web页面数据的抽取.Web数据库的抽取作为深网研究中重要的课题,已经有学者对其进行深入的研究,但是目前仍然缺乏对查询返回结果受限的Web数据库抽取的研究.文中借助于形式概念分析的形式化描述能力对受限的Web数据库抽取问题进行深入详细的阐述和分析.主要工作与创新点包含以下几方面: (1).在首先证明由属性及属性组合产生的集合划分之间为容差关系,进而证明其构成一个完全格,并且与概念格同态的基础上,将形式概念分析理论引入到Web数据库抽取应用领域中,实现深网上Web数据库抽取问题到基于形式概念分析的Web应用问题的转化.使得形式概念间的偏序关系被用来刻画属性间的相关性,形式概念内涵作为查询属性,形式概念外延则为对查询返回结果的预测. (2).在应用概念格到受限Web数据库抽取过程中,相继提出了一系列的受限Web数据库抽取算法,逐步提高基于概念格应用的效率.它们分别是从概念集合覆盖角度提出的基于格空间的受限Web数据库抽取算法(Ladeldew)、基于半格空间叠置集成构造的受限Web数据库抽取算法(Ladeldew-N)和从信息检索(Information Retrieval, IR)的角度提出的基于最大子概念的受限Web数据库抽取算法(Edali-wdbFCA). (3).面对基于形式概念分析应用过程中,构造概念格过高的时间和空间复杂度问题,本文采用仅构造应用中需要的部分概念格的策略.为此首先提出了下半概念格叠置集成构造理论及相应算法(Nocose),其避免了完备概念格的构造;随后又提出查询概念的下覆盖生成方法,动态计算当前查询概念的下覆盖作为查询的搜索空间,进一步避免了半格的构造,提高了应用效率.这些方法减少了形式概念应用过程中计算的复杂度,为基于形式概念分析的应用奠定了坚实的理论基础. (4).为了进一步处理具有大规模、动态、异构、重复性以及冲突等多种特点的Web数据,并且保持分析问题的理论方法一致性.本文借助于形式概念分析的概念形式化表示与概念分析能力,在研究概念间冲突、互补、抽象等关系后,提出一个基于形式概念分析的概念融合理论框架.并且在该融合框架的基础上提出一个特定领域Web页面关联概念挖掘算法(Acorn). (5).文中的主要工作通过实验不仅验证算法理论的正确性,以及实践应用中的可行性;而且又针对每个算法的自身特点进行相应的性能测试与分析. 基于形式概念分析的Web数据库抽取和概念融合研究工作不仅具有一定的理论意义,丰富了web信息抽取和概念融合的理论研究;而且具有广泛的实际应用价值,扩展概念格的应用范畴,并且为web信息抽取和融合提供新的途径.但是仍然有大量的理论问题和具体的应用问题期待解决,这是一件需要长期努力的艰辛工作.
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前9条
1 李兵,何克清,刘进,李瑞轩;Web信息融合系统基础设施的研究[J];北京航空航天大学学报;2004年11期
2 李云,刘宗田,陈崚,徐晓华,程伟;多概念格的横向合并算法[J];电子学报;2004年11期
3 王黎明;张卓;;基于iceberg概念格并置集成的闭频繁项集挖掘算法[J];计算机研究与发展;2007年07期
4 齐红;刘大有;胡成全;卢明;赵亮;;基于搜索空间划分的并行概念生成算法[J];计算机科学;2005年04期
5 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
6 齐红;刘大有;胡成全;卢明;赵亮;;基于搜索空间划分的概念生成算法[J];软件学报;2005年12期
7 孟小峰;于戈;;Deep Web数据集成专刊前言[J];软件学报;2008年02期
8 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
9 张卓;李石君;余伟;田建伟;;基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法[J];小型微型计算机系统;2010年03期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
3 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
4 潘怡;杜红燕;;数据流频繁闭项集挖掘研究[J];长沙大学学报;2010年05期
5 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
6 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
7 蒋莘;;基于知网的论文按需检索系统[J];电脑知识与技术;2012年02期
8 赵昊;卫刚;赵晓东;;基于主题Deep Web数据挖掘的研究与探索[J];电脑知识与技术;2012年16期
9 张志平;张云坤;李文骏;;Deep web在个性化信息服务中的应用[J];电子商务;2010年08期
10 杨彬;徐宝文;许蕾;;基于概念内涵最小生成子的伪内涵计算方法[J];电子学报;2008年11期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
3 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
5 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 林培光;赵琳;张燕;聂培尧;;基于WDB特征和用户查询请求的Web数据库选择[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 张立石;马二军;;Formal concept analysis via AFS approaches[A];2007年中国智能自动化会议论文集[C];2007年
9 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
10 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 焦素云;基于概念格的动态策略存取模型[D];吉林大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 杨霁琳;不完备信息系统知识约简方法及应用研究[D];西南交通大学;2010年
7 王颜新;非常规突发事件情境重构模型研究[D];哈尔滨工业大学;2011年
8 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
9 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
10 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
3 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
4 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
5 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
6 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
7 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
8 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
9 王富强;基于iceberg概念格的最大频繁项集挖掘研究[D];江苏大学;2010年
10 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 李云,刘宗田,陈崚,徐晓华,程伟;多概念格的横向合并算法[J];电子学报;2004年11期
2 王黎明;赵辉;;基于FP树的全局最大频繁项集挖掘算法[J];计算机研究与发展;2007年03期
3 王黎明;张卓;;基于iceberg概念格并置集成的闭频繁项集挖掘算法[J];计算机研究与发展;2007年07期
4 齐红;刘大有;胡成全;卢明;赵亮;;基于搜索空间划分的并行概念生成算法[J];计算机科学;2005年04期
5 谢志鹏,刘宗田;概念格的快速渐进式构造算法[J];计算机学报;2002年05期
6 何克清,应时,何非;一个可构造的反演状态模式[J];软件学报;2001年08期
7 李云,刘宗田,陈崚,沈夏炯,徐晓华;基于属性的概念格渐进式生成算法[J];小型微型计算机系统;2004年10期
8 李云,刘宗田,吴强,沈夏炯,强宇;概念格的分布处理研究[J];小型微型计算机系统;2005年03期
【相似文献】
中国期刊全文数据库 前10条
1 文继奎;孙佑明;;基更远程教育定义解读[J];河北广播电视大学学报;2006年04期
2 夏凌翔;黄希庭;;古籍中自立涵义的概念分析[J];心理学报;2006年06期
3 赫枫龄;JUP用多级知识表示结构处理英语中动词的过去式和过去分词同形的问题[J];吉林大学学报(理学版);1992年04期
4 郑定;;概念分析在图书馆信息化中的应用[J];软件导刊;2009年02期
5 秦昆;李振宇;杜鹢;;基于概念分析的空间数据挖掘研究进展[J];地球信息科学学报;2009年01期
6 毛华;李斌;;等价关系约束属性的形式概念分析[J];计算机工程与应用;2010年36期
7 白龙飞;;十年:追寻媒介素养教育本土化的轨迹[J];电化教育研究;2006年02期
8 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
9 张晓风;陈平;崔伟勇;;一种结合扇入和概念分析技术进行Aspect挖掘的方法[J];计算机科学;2006年08期
10 尹晓霈;张博;李丹;;基于领域本体的垃圾邮件过滤器的研究[J];自动化仪表;2008年08期
中国重要会议论文全文数据库 前10条
1 吕翠凤;郑玉明;廖湖声;;可扩充空间数据库访问接口研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 郝海妍;冀富强;;ADO技术及在Delphi中应用浅析[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
3 陈增强;刘忠信;许国峰;陈戊超;;一个工业过程实验信息管理系统的研究[A];中国计量协会冶金分会2010年会论文集[C];2010年
4 梁爱林;;从“风险”术语的个案研究看术语词典的编撰工作[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
5 王韵婷;刘焕章;文继军;王珊;;网格环境下的数据库检索系统设计与实现[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 谭新;郭兴明;陈旻;;基于虚拟仪器的无线远程医疗监控中心数据库访问接口研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
7 武晋南;高建华;;基于user session的Web测试集简化方法[A];第五届中国测试学术会议论文集[C];2008年
8 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 唐开龙;康斌栋;;远程监控技术在港口起重设备上的应用[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
10 杜凯;杨树强;贾焰;王怀民;;基于CORBA的海量数据加载中间件的研究与实现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 上海中远蓝天律师事务所 岳文辉 高颖睿;计算机犯罪的概念分析[N];民主与法制时报;2003年
2 ;不见面的会议[N];中国计算机报;2003年
3 陈军;婚内侵权之概念分析[N];江苏经济报;2010年
4 上海社会科学院 罗义俊;熊十力:重建中国哲学之“体”[N];社会科学报;2008年
5 中国政法大学教授 舒国滢;寻求法治的技术之路[N];法制日报;2003年
6 廖四平 张玉亮;诗与思的完美结合[N];光明日报;2005年
7 刘权;电话会议由您作主[N];中国计算机报;2003年
8 贵州省天柱县工商局远口工商所 赵玉娥;商品过度包装的概念分析及治理思考[N];中国工商报;2006年
9 江向东;“名家”界说献议[N];中国社会科学院院报;2007年
10 张卜天;哲学:沟通科学与常识[N];中华读书报;2007年
中国博士学位论文全文数据库 前10条
1 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
2 郭兰坤;幂形式概念分析和模糊概念格研究[D];湖南大学;2011年
3 齐红;基于形式概念分析的知识发现方法研究[D];吉林大学;2005年
4 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年
5 杨凌云;形式概念分析和粗糙集理论的代数及拓扑式研究[D];扬州大学;2010年
6 刘叶深;论法律的概念分析[D];中国政法大学;2008年
7 沈映涵;新分析法学中的方法论问题研究[D];吉林大学;2009年
8 邱昭继;法律、语言与法律的不确定性[D];中国政法大学;2008年
9 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年
10 王利东;基于粗糙集与公理模糊集的形式概念分析[D];大连理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 黄乐;产品测试系统数据库访问接口设计[D];中国海洋大学;2013年
2 韦凯;基于元数据的数据库可扩展设计关键技术[D];国防科学技术大学;2010年
3 张玲;银行人事档案管理系统的设计与实现[D];大连理工大学;2013年
4 刘雯雯;人力资源管理系统的设计与实现[D];北京邮电大学;2010年
5 董红丽;轨道客车箱体温度场数据管理与分析系统[D];吉林大学;2012年
6 张海旸;THz装置控制系统中数据库技术研究[D];成都理工大学;2013年
7 张荣荣;面向领域的数据库问答系统关键技术研究[D];山东科技大学;2011年
8 曹发文;电力系统可视化图形平台及其相关问题研究[D];华中科技大学;2005年
9 赵敏;基于VC的矿井安全监控系统软件研究[D];河南理工大学;2010年
10 王笑琨;基于形式概念分析的聚焦爬虫算法[D];中央民族大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026