收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件概率图模型的Deep Web数据抽取与集成研究

黄健斌  
【摘要】: 目前,大量的结构化数据蕴藏在Deep Web中,但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点,使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一,它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场,一种序列条件概率无向图模型,引入到Deep Web数据抽取和集成的研究中,对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略,主要工作概括如下: (1)针对Deep Web查询接口自动搜索和发现问题,提出了基于条件随机场的网页链接路径学习模型,给出了使用增强学习技术对超链接进行评分的算法。实验结果表明,搜索查询表单的性能明显优于其它表单爬虫。 (2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外,利用最大熵分类器的优点,融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明,该方法分类准确率高。 (3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性间的层次关系。提出了一种层次序列条件随机场模型,通过对查询表单中的查询元素进行联合标注分类,实现异构查询接口模式匹配。实验结果表明,该方法具有较高的匹配准确率和跨领域通用特性。 (4)提出了一种基于标记树的网页区域分割方法,并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题,提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合,能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注,从而减少了对手工标注样本的依赖;此外增加对跳边的支持,使得模型能够处理状态变量间的长距离依赖。 (5)最后,针对重复Web记录检测问题,提出一种条件训练字符串编辑距离模型,可以从训练样本数据中自动学习字符串对的相似函数。此外,使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明,避免了采用固定距离度量函数可能引起的字段相似度估计偏差,并且提高了重复记录检测的鲁棒性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于江德;樊孝忠;尹继豪;;基于条件随机场的中文科研论文信息抽取[J];华南理工大学学报(自然科学版);2007年09期
2 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
3 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
4 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
5 郑皎凌;唐常杰;姜玥;杨宁;李红军;;基于伪属性语义匹配的Deep web信息抽取[J];四川大学学报(工程科学版);2009年02期
6 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
7 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
8 徐和祥;张永忠;胡运发;;一种安全验证模式下Deep Web爬虫的研究[J];计算机应用与软件;2010年05期
9 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
10 黄永文;李广建;;ETL技术及其在数字图书馆中的应用研究[J];图书馆杂志;2006年02期
11 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
12 雷刚跃;任胜兵;;基于XML的数据集成研究[J];中国科技信息;2005年23期
13 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
14 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
15 张奇;金培权;岳丽华;;基于CRF的网页动态关系抽取研究[J];中国科学技术大学学报;2010年11期
16 张付志;侯娜;刘慧;马玉静;;一种基于启发式搜索的论文元数据提取算法[J];计算机应用与软件;2009年09期
17 代翠;周俏丽;蔡东风;杨洁;;统计和规则相结合的汉语最长名词短语自动识别[J];中文信息学报;2008年06期
18 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
19 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
20 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
中国重要会议论文全文数据库 前10条
1 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 凌妍妍;刘伟;王仲远;艾静;孟小峰;;Deep Web数据集成中的实体识别方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
5 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
6 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 胡鹏昱;苗忠义;崔志明;方巍;;扩展的Deep Web质量估计模型研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
9 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
10 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
2 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
5 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
6 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
7 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
8 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
9 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
10 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 颜无瑕;Deep Web数据集成中模式匹配研究[D];曲阜师范大学;2011年
2 于亮;科技文献的文本特征抽取研究与应用[D];北京邮电大学;2009年
3 郑海波;Deep Web查询结果自动抽取[D];吉林大学;2009年
4 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
5 莫凌琳;基于条件随机场的科研论文信息分层抽取研究[D];重庆大学;2009年
6 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
7 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
8 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
9 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
10 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978