收藏本站
《西安电子科技大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件概率图模型的Deep Web数据抽取与集成研究

黄健斌  
【摘要】: 目前,大量的结构化数据蕴藏在Deep Web中,但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点,使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一,它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场,一种序列条件概率无向图模型,引入到Deep Web数据抽取和集成的研究中,对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略,主要工作概括如下: (1)针对Deep Web查询接口自动搜索和发现问题,提出了基于条件随机场的网页链接路径学习模型,给出了使用增强学习技术对超链接进行评分的算法。实验结果表明,搜索查询表单的性能明显优于其它表单爬虫。 (2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外,利用最大熵分类器的优点,融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明,该方法分类准确率高。 (3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性间的层次关系。提出了一种层次序列条件随机场模型,通过对查询表单中的查询元素进行联合标注分类,实现异构查询接口模式匹配。实验结果表明,该方法具有较高的匹配准确率和跨领域通用特性。 (4)提出了一种基于标记树的网页区域分割方法,并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题,提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合,能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注,从而减少了对手工标注样本的依赖;此外增加对跳边的支持,使得模型能够处理状态变量间的长距离依赖。 (5)最后,针对重复Web记录检测问题,提出一种条件训练字符串编辑距离模型,可以从训练样本数据中自动学习字符串对的相似函数。此外,使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明,避免了采用固定距离度量函数可能引起的字段相似度估计偏差,并且提高了重复记录检测的鲁棒性。
【学位授予单位】:西安电子科技大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.135.4

【引证文献】
中国期刊全文数据库 前1条
1 张亮;陆余良;房珊瑶;;基于量子自组织神经网络的Deep Web分类方法研究[J];计算机科学;2011年06期
中国博士学位论文全文数据库 前3条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
【参考文献】
中国期刊全文数据库 前4条
1 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
2 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
3 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
4 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
3 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
4 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
5 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
6 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
7 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
8 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
9 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
10 荣腾中;刘朝林;徐旺;;多维复杂分布的MCMC抽样[J];重庆理工大学学报(自然科学版);2010年08期
中国重要会议论文全文数据库 前10条
1 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
2 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 李姗琦;孙永宣;高隽;谢昭;;层次Dirichlet过程模型下的目标分析与识别[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 ;A Collaborative Method for the Localization of Wireless Sensor Network[A];2009中国控制与决策会议论文集(3)[C];2009年
8 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
9 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 钱颖;刘国华;张忠平;沈兵红;张凌宇;;基于聚类的模式匹配方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
7 孙韶杰;模糊图像中感兴趣信息的盲复原方法研究[D];国防科学技术大学;2010年
8 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
4 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
5 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
6 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
7 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
8 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
9 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
10 杨业强;MIMO-OFDM系统天线选择技术的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 王辉;左万利;王晖昱;宁爱军;孙志伟;满春雷;;基于质心向量的增量式主题爬行[J];计算机研究与发展;2009年02期
4 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
5 王超;朱炜;李俊;潘金贵;;多策略的主题集中式万维网爬虫设计[J];计算机科学;2004年07期
6 申德荣;聂铁铮;余恩运;寇月;于戈;;支持Web深层数据库网格的部分关键技术的研究[J];计算机科学;2007年08期
7 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
8 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
9 苗忠义;赵朋朋;胡鹏昱;崔志明;;基于属性高频字的深网数据库重叠率估计[J];计算机工程;2009年13期
10 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
中国博士学位论文全文数据库 前1条
1 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前2条
1 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
2 费智聪;熵权—层次分析法与灰色—层次分析法研究[D];天津大学;2009年
【二级引证文献】
中国期刊全文数据库 前1条
1 唐彰国;李焕洲;钟明全;张健;;基于量子神经网络的启发式网络隐蔽信道检测模型[J];计算机应用研究;2012年08期
中国硕士学位论文全文数据库 前2条
1 张春丽;Deep Web集成查询系统预处理关键技术研究[D];大连海事大学;2012年
2 刘伟平;基于语义的Deep Web数据源分类研究[D];西安电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前2条
1 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
2 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
【相似文献】
中国期刊全文数据库 前10条
1 于江德;樊孝忠;尹继豪;;基于条件随机场的中文科研论文信息抽取[J];华南理工大学学报(自然科学版);2007年09期
2 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
3 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
4 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
5 郑皎凌;唐常杰;姜玥;杨宁;李红军;;基于伪属性语义匹配的Deep web信息抽取[J];四川大学学报(工程科学版);2009年02期
6 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
7 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
8 徐和祥;张永忠;胡运发;;一种安全验证模式下Deep Web爬虫的研究[J];计算机应用与软件;2010年05期
9 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
10 黄永文;李广建;;ETL技术及其在数字图书馆中的应用研究[J];图书馆杂志;2006年02期
中国重要会议论文全文数据库 前10条
1 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 凌妍妍;刘伟;王仲远;艾静;孟小峰;;Deep Web数据集成中的实体识别方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
5 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
6 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 胡鹏昱;苗忠义;崔志明;方巍;;扩展的Deep Web质量估计模型研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
9 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
10 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国博士学位论文全文数据库 前10条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
2 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
5 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
6 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
7 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
8 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
9 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
10 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 颜无瑕;Deep Web数据集成中模式匹配研究[D];曲阜师范大学;2011年
2 于亮;科技文献的文本特征抽取研究与应用[D];北京邮电大学;2009年
3 郑海波;Deep Web查询结果自动抽取[D];吉林大学;2009年
4 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
5 莫凌琳;基于条件随机场的科研论文信息分层抽取研究[D];重庆大学;2009年
6 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
7 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
8 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
9 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
10 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026