收藏本站
《山东大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的中间文档信息提取技术研究

赵长领  
【摘要】:随着Web技术的发展,越来越多的信息呈现在用户面前。对海量的信息资源的处理成为一个非常重要的问题。因此对于网络资源的信息提取技术具有十分重要的意义。然而传统的面向纯文本的信息提取技术主要基于自然语言处理,局限于特定的领域。而随着网络的爆炸发展,对于(半)结构化的文本进行信息提取越来越显示出其重要性。然而目前构成Web网页主体的HTML语言由于自身的缺陷制约了对信息资源进行进一步的开发利用。并且在网络上和平时的同常应用中还涉及到大量其它格式的文档。但由于应用背景的不同,文档的组织方式和表现方式差别很大。为了对这些文档进行信息处理和利用,就必须对文档格式进行转换。 因此,本文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构、文本格式信息、链接、表格和一些元数据信息等。详述了将常用的文档格式如PDF、Word等转换为XML中间文档的方法。在这个XML中间文档的基础上进行了文本内容特征提取的工作。 系统的主要特点如下: 实现多种常用格式文档的内容和结构的分析 定义通用的文档格式描述语言,并基于对文档的形式描述实现对多种文档的识别、分析 基于中间文档格式提取出文档的标题。 根据具体模板提取出了电子期刊论文的标题、摘要、关键词等信息。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 吕津,赵明生;对因特网上自动信息提取的研究[J];数据通信;2000年01期
【共引文献】
中国期刊全文数据库 前10条
1 田苗苗;许建潮;汪津;丁桂英;;基于遗传算法的Web信息自动标引研究[J];吉林大学学报(信息科学版);2006年05期
2 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
3 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
4 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
5 贾泂,梁久祯;基于支持向量机的中文网页自动分类[J];计算机工程;2005年10期
6 王少宇,杜娟,秦前清;基于内容的网页信息处理方法[J];计算机应用;2005年04期
7 李超;王兰成;;应用领域本体的Web信息知识集成研究[J];情报科学;2007年03期
8 于洪波;;网页特征提取技术研究[J];山东理工大学学报(自然科学版);2011年02期
9 张晓滨,石美红,蔡桂洲;信息采集Robot的实现及应用[J];西安工程科技学院学报;2002年01期
10 张晓滨,石美红,蔡桂洲;校园网搜索引擎设计[J];西安工程科技学院学报;2002年03期
中国博士学位论文全文数据库 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前10条
1 张释予;沈阳电视台视频素材采编系统软件的设计与实现[D];电子科技大学;2011年
2 汪明强;基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现[D];河北工业大学;2011年
3 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
4 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
5 王崑崙;中文网页自动分类的一种实现[D];大连理工大学;2002年
6 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
7 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
8 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年
9 王颖;智能搜索用户个性化定制模块的设计与开发[D];吉林大学;2007年
10 杨梅;智能化后控词表的研究与设计[D];新疆大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
3 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
4 郭俊文;衡星辰;邵利平;覃征;田磊;王妮;;一种基于XML文档聚类的XML近似查询算法[J];计算机工程;2006年15期
5 魏东平;宗德君;孙华国;;基于DTD的XML索引查询技术[J];计算机工程;2009年18期
6 陈国胜;何宗明;;基于XML技术的Word文档录入及格式检测系统设计[J];计算机时代;2009年04期
7 于帆;王振铎;王振辉;;基于XML异构数据库集成中间件的设计与实现[J];计算机应用研究;2007年09期
8 黄毅;钟碧良;;基于XML的异构数据库间数据迁移的研究[J];科技管理研究;2008年08期
9 陈斌;我国科技期刊国际化的现状、问题和建议[J];山东大学学报(哲学社会科学版);2005年05期
10 赵圣猛;赵雷;;一种优化的XML文档模型映射方案[J];微电子学与计算机;2009年10期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前4条
1 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
2 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
3 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前9条
1 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
2 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
3 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
4 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
5 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
6 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
7 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
8 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
9 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【二级参考文献】
中国期刊全文数据库 前6条
1 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
2 张朝晖,陆玉昌,张钹;利用神经网络发现分类规则[J];计算机学报;1999年01期
3 王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期
4 都云程,卢献华;中文搜索引擎现状与展望[J];中文信息学报;1999年03期
5 汪挺;WWW信息查询技术展望[J];情报学报;1997年S1期
6 孙丽,陈通宝,乔晓东;网上中文检索工具的比较研究[J];情报学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 盛小平,吴翻;SGML与PDF在电子出版中的比较分析与应用[J];晋图学刊;2000年03期
2 宋艳娟,张文德;基于XML的PDF文档信息抽取系统的研究[J];现代图书情报技术;2005年09期
3 郝亚南,陈少飞,李天柱;数据交换中的数据格式转换[J];河北大学学报(自然科学版);2003年02期
4 张宗平;李海雁;;基于XML的Web信息提取技术研究[J];现代计算机(专业版);2007年08期
5 周媛,盛小平;数字图书馆资源格式浅析[J];河南图书馆学刊;2002年01期
6 宋艳娟;李金铭;陈振标;;基于XSLT的PDF信息抽取技术的研究[J];计算机与数字工程;2008年05期
7 盛小平;基于SGML与PDF相结合的电子出版研究[J];电子出版;1999年12期
8 彭媛媛;许建潮;;基于xml的Deep Web信息自动抽取技术的研究[J];科技信息;2009年33期
9 周炘;邓蓉;;基于XML的Web数据挖掘模型设计与研究[J];计算机与现代化;2010年11期
10 吴霞;王军;孙军;徐元元;宋殿忠;;基于STEP-NC的XML解释器的研究[J];组合机床与自动化加工技术;2008年09期
中国重要会议论文全文数据库 前10条
1 姚启红;徐鹏;;基于Java技术的XSL-FO数据转换引擎——XSL数据表示引擎[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年
2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 樊哲高;福昕:打造中国的PDF[N];中国电子报;2011年
2 秦林;《XML完全探索》[N];中华读书报;2001年
3 仇丰刚;采用PDF417技术 有效打击涉牌违法[N];人民公安报·交通安全周刊;2011年
4 本报记者 林侃 卢雅;领舞PDF技术的江西小伙子[N];福建日报;2009年
5 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
6 本报记者 边歆;黑客利用PDF漏洞发动攻击[N];网络世界;2010年
7 ;分化并不能阻止XML发展[N];中国计算机报;2000年
8 ;利用Google公开发布PDF文档[N];中国电脑教育报;2009年
9 陈永清 颜廷杰;金属矿产快速评价预测系统完成[N];地质勘查导报;2006年
10 ;为XML标准定标准[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 吕苗荣;信息提取与矿山信息系统的研究开发[D];中南大学;2003年
2 刘亚岚;遥感影像群判读技术的试验研究[D];中国科学院研究生院(遥感应用研究所);2004年
3 姚琛;基于信息提取计算的动态交通数据分析及应用[D];西南交通大学;2011年
4 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
5 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
6 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
7 张晨静;XML关键字过滤技术[D];复旦大学;2011年
8 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
9 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
10 刘伟东;高光谱遥感土壤信息提取与挖掘研究[D];中国科学院研究生院(遥感应用研究所);2002年
中国硕士学位论文全文数据库 前10条
1 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
2 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
3 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
4 洪娜;数字迁移研究[D];郑州大学;2007年
5 邓志禄;工作面安全分析智能化电子文档技术研究[D];西安科技大学;2009年
6 顾钧;基于数字版权系统的PDF文档安全性研究与应用[D];合肥工业大学;2011年
7 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
8 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
9 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
10 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026