收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息抽取技术研究

王花  
【摘要】: 过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,成为我们工作和生活中不可缺少的一部分。Web数据的主题广泛而且内容多样,用户可以在因特网上找到几乎任何信息。Web上具有各种类型的数据,如结构化的表格、半结构化的网页、无结构的文本以及多媒体文件等,Web上的信息是异构的、包含噪音数据。如何自动从这些网站的有关页面抽取有用的信息,避免噪音数据的干扰,为用户提供一个方便快捷和高效的信息查询平台,是一个值得研究的课题,Web信息抽取技术应运而生。 Web信息抽取技术的核心是构造包装器,即编写抽取规则。目前,已经产生了各种各样的方法来生成抽取规则,但这些方法有其不同的局限性,在精确度和通用性方面难以达到很高的要求。随着互联网的发展,XML技术的优势逐渐显示出来。XML数据的独立性把内容及其表示法分离开来,XML文档的结构化而非格式化本质使之很容易由数据库应用程序处理,本文在此基础上提出基于XML的Web信息抽取方法。利用XML相关的标准技术来实现Web信息抽取,将源HTML文档中用户感兴趣的信息抽取出来,快速获取所需信息,采用该技术的信息抽取系统易于维护且具良好的可扩展性。具体创新有以下几点: (1)充分利用了XSLT在解决文档转换问题上的优势,使其与XPath相结合生成抽取规则。并使用XSLT语言描述抽取规则,使得抽取模式更容易达成统一。使用此方法生成的规则易于修改和维护,降低了信息抽取的难度并提高了抽取效率。 (2)设计并实现了一种基于DOM树结构的XPath生成算法,深度优先遍历DOM树并快速定位到待抽取信息点,有效解决了待抽取信息点定位难的问题。 在多个网站上的实验结果表明,本文提出的Web信息抽取方法能够有效地抽取相似网页中的数据记录,数据记录的抽取准确率达到90%左右,能够较好地满足现实应用中对数据获取精确度的要求。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 卢红杰;;基于Web数据的信息抽取技术[J];兰台世界;2006年07期
2 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
3 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
4 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
5 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
6 秦振海;谭守标;徐超;;基于Web的表格信息抽取研究[J];计算机技术与发展;2010年02期
7 李姗;黄水源;;基于XML的WEB信息抽取模型设计[J];微计算机信息;2009年09期
8 熊惠荟;欧阳君;;基于模板法的网页英语试卷自动抽取技术的研究[J];计算机与数字工程;2009年04期
9 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
10 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
11 谷斌;;基于Web的信息选择原则与方法研究[J];情报杂志;2006年01期
12 周登;戴玉刚;付涛;;基于树结构的Web信息抽取[J];计算机技术与发展;2009年09期
13 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
14 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
15 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
16 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
17 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
18 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
19 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
20 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
中国重要会议论文全文数据库 前10条
1 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
7 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
9 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
10 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
3 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
4 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
5 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
6 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
7 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
8 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
9 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
10 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978