收藏本站
收藏 | 论文排版

Web信息抽取技术研究与基于Web service的实现

张志强  
【摘要】:随着Internet技术的发展,WWW上积累了大量数据,成为世界上最大的数据源。但Web信息多以HTML格式发布,缺乏语义信息,造成大量的Web数据不能直接为应用程序直接使用。为了使大量的Web数据能够为以数据为驱动的应用所使用,人们广泛采用了信息抽取技术,现已成为当前研究热点之一。 在以往的工作中,我们实现了基于结构的信息抽取技术,在Web网页显示特征的深入分析基础上,以Xpath、Xquery作为抽取规则,给出了一套抽取规则的生成、优化方案。试验结果表明这套方案所使用的方法具有较高的查准率、查全率。但在该方法中对Web网页结构的几个特殊情况只做了特定地分析,缺乏理论上地系统阐述,对抽取能力的表达也不够充分。 本文仔细研究了基于结构信息抽取方法的典型系统,借鉴非1NF关系数据库的关系模式的平面化/嵌套化操作,引入了DOM的平面化/嵌套化理论,对Web网页结构做了深入分析。给出了三种基本类型的平面化/嵌套化情况:(1)集合对象平面化;(2)元组对象平面化;(3)DOM结构嵌套粒度过大。分析了各种平面化/嵌套化对抽取的影响之后,引入了结构重组规则,针对各种平面化情况采用结构重组规则给出了相应的具体解决方案,提高了系统的抽取能力。结合Web网页结构的上下文环境,对各种结构重组规则的具体解决方法的适应性进行了详细的分析,初步讨论了基于结构的信息抽取技术的抽取能力。规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术,还可以采用其他信息抽取技术的方法,提高了现有信息抽取技术的效率和健壮性,同时为各种信息抽取技术的融合提供了一种思路。 Web Service的出现为数据集成提供一种很好的解决方案,本文将Web Service技术与信息抽取技术相结合,在原型系统中实现了基于Web Service的信息抽取系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 谭啸峰;沈海斌;;基于主元分析的空间手写平面化预处理技术[J];机电工程;2011年08期
5 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
6 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
7 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
8 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
9 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
10 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
11 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
12 李莲春;周金治;;网络音视频语义信息抽取系统[J];计算机工程;2011年13期
13 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
14 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
15 刘思文;;论全媒体语境下编辑主体观念转型与功能创新[J];出版发行研究;2011年07期
16 卫佳君;宋继华;;自动文摘的方法研究[J];计算机技术与发展;2011年08期
17 许建豪;;基于电子商务的精确搜索引擎的研究与实现[J];南宁职业技术学院学报;2011年04期
18 王靓;;论数字媒体时代广告表现的变革[J];大家;2011年14期
19 殷彬;杨会志;;灵活结构网页的正文提取[J];计算机技术与发展;2011年09期
20 赵小兵;邱莉榕;赵铁军;;多民族语言本体知识库构建技术[J];中文信息学报;2011年04期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 金哲;平面化:后现代文化表征的多维阐释[D];哈尔滨师范大学;2010年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
7 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
8 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 方伟;文学“平面化”应当遏制[N];光明日报;2010年
2 段诚 编译;全球彩管加速平面化[N];中国电子报;2000年
3 国航杭州维修基地 施国刚;勿将6S 推行平面化[N];中国民航报;2009年
4 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
5 蒋原伦;传媒娱乐化平面化令人担忧[N];中国艺术报;2006年
6 彭芳;搜索也专业[N];中国计算机报;2004年
7 邹健;大屏化、平面化、个性化、功能化[N];中国电子报;2000年
8 张冬梅;应对“读图时代”[N];中国新闻出版报;2005年
9 如烟海;先锋文学业已退场?[N];北京日报;2007年
10 王建中 樊哲高;一张订单让海尔变成平面[N];中国电子报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978