收藏本站
《哈尔滨工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

网络信息自动化高效抽取技术研究

宋鑫莹  
【摘要】:随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构的特征,为网络信息抽取工作带来了巨大的挑战。 本文围绕网络信息的海量规模与高度异构的特征,分数据记录抽取和数据单元抽取两个层次,对自动化、高效抽取网络信息的技术展开了相关研究,研究内容包括以下四个方面: 1.针对网络信息高度异构的特点,提出新的自动化的基于锚点树的数据记录的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了当数据记录含有一定的不规则内容时(例如用户原创内容)时,现有的基于相似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念,对应数据记录中的某些关键的数据单元。例如,每个用户创建、发表的帖子记录(例如在线论坛帖子、用户评论等)都含有发帖时间这个关键的数据单元,可以作为由领域约束获得的锚点。本文提出MiBAT方法,利用领域约束检测出锚点,然后围绕包含锚点的DOM(Document Object Model)子树,完成数据记录的自动化抽取工作。实验表明,与以往的自动化的数据记录抽取方法相比,MiBAT方法可以较好的克服数据记录的不规则性,具有较高的抽取准确度。 2.针对数据记录层次的网络信息的海量规模的特点,提出快速高效的锚点树的寻找算法。传统的网络信息挖掘算法采用自上而下的枚举DOM子树的方式,按照这种方式设计锚点树寻找算法,MiBAT的时间复杂度为O(n2),其中n是输入网页的DOM树的结点的数量。本文提出一个新的基于标签路径自底向上聚集的锚点树寻找算法,使得MiBAT的时间复杂度降到O(nlogn)。实验表明,新的锚点树寻找算法极大地提高了MiBAT方法的运行效率,同时保持较高的抽取准确度。 3.针对网络信息的跨领域异构的特点,提出不依赖领域约束的通用锚点的检测方法。锚点的概念最初由领域约束而来,对应于领域相关的数据单元。在实际应用时,对不同的领域,需要预先指定相应的领域约束,这在某种程度上限制了MiBAT方法的自动化应用。本文对此进行扩展,提出通用锚点的概念及其检测和应用方法。实验表明,应用通用锚点时,MiBAT方法可以应用于不同的领域的信息抽取任务,具有较高的准确度,不需要人为指定领域约束。 4.针对数据单元层次的网络信息的海量规模的特点,研究快速高效的DOM树匹配算法,应用在数据单元抽取对齐任务中。现有的广泛应用的树匹配方法的复杂度是O(n2),并不适合海量规模的网络信息抽取任务。本文提出一个新的基于标签路径序列的最长公共子列(Longest Common Subsequence,LCS)的方法。利用LCS问题的稀疏性质,算法复杂度可以达到O(rlogn),其中r等于两棵树上具有相同标签路径的结点对的数量;当两棵树的候选匹配较为稀疏时,r≈O(n),算法的复杂度接近O(nlogn)。实验表明,与现有的广泛应用的DOM树匹配方法相比,本文提出的方法具有更高的运行效率,同时保持较为一致的树匹配准确度和数据单元对齐准确度。 综上所述,本文在数据记录抽取和数据单元抽取两个层次上,提出了自动化的、高效的网络信息抽取方法,能够较好的适应网络信息高度异构和海量规模的特点,具有较大的理论价值和实际应用价值。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP393.092;TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张慧颖;曲著伟;;基于子树匹配的交互式Web数据抽取方法[J];计算机工程;2006年09期
2 张燕,黄英;浅析网络信息挖掘[J];情报理论与实践;2003年06期
3 陈洪平;方巍;李林;崔志明;;复杂Web页的Wrapper自动化生成技术研究[J];微电子学与计算机;2010年04期
4 刘平兰;基于DOM的数字图书馆Web资源信息提取服务模型之研究[J];情报杂志;2002年11期
5 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
6 于丽娜;网络信息挖掘初探[J];现代情报;2004年03期
7 李卫东;;基于DOM的半结构化网页信息抽取算法[J];河北省科学院学报;2009年01期
8 张燕;浅谈网络信息挖掘[J];情报探索;2000年04期
9 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
10 李村合;网络信息挖掘技术及其应用研究[J];情报科学;2002年11期
中国重要会议论文全文数据库 前10条
1 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
4 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
8 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
9 黄国城;孟凡刚;周忠波;李建;黄励晖;;河水DOM的生物转化机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
10 刘叶;蔡美芳;乔显亮;;畜禽粪便来源DOM对土壤吸附土霉素的影响[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
中国重要报纸全文数据库 前10条
1 实习记者 徐媛萍;论文水平高过往届[N];广东科技报;2009年
2 无尾狐;在Excel中轻松查看数据记录[N];中国电脑教育报;2004年
3 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
4 本报记者 隋晓琳;情系“黑匣子”[N];中国高新技术产业导报;2002年
5 四川大学计算机学院 陈华英;组建基于 Web 方式的数据仓库[N];网络世界;2000年
6 史秋实;中小企业并购在等待中前行[N];中国高新技术产业导报;2006年
7 记者 刘颖;尽快补齐通导设备这块短板[N];中国船舶报;2006年
8 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
9 本版编辑 宗和驷 柳莺;哈工程大学VDR装船使用[N];中国船舶报;2008年
10 记者 罗强李洪文 通讯员 金声 初霞;船用“黑匣子”在黑龙江装船使用[N];中国水运报;2008年
中国博士学位论文全文数据库 前10条
1 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
2 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
3 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
4 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
5 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
6 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
7 王壮;四种人工纳米颗粒物在水相中的转化行为及生态毒理效应[D];大连理工大学;2013年
8 万升云;磁记忆检测原理及其应用技术的研究[D];华中科技大学;2006年
9 邵明义;中药新药临床试验数据管理系统的设计及应用研究[D];成都中医药大学;2009年
10 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
中国硕士学位论文全文数据库 前10条
1 宗彩慧;基于神经网络的网络信息挖掘的研究与应用[D];大连海事大学;2010年
2 张凌华;简易网络信息情报挖掘系统的设计与实现[D];电子科技大学;2013年
3 曲著伟;基于树匹配的交互式Web数据抽取技术的研究[D];天津大学;2005年
4 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
5 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
6 李猛;基于DOM的Web信息抽取技术的研究与实现[D];大连理工大学;2008年
7 王旭东;基于Web的信息抽取技术研究[D];西南交通大学;2008年
8 孟庆祥;基于XML元素处理的Web信息抽取研究与实现[D];北京交通大学;2009年
9 朱汉超;基于网页结构的Web数据抽取方法研究[D];武汉科技大学;2009年
10 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026