收藏本站
《河北大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

PDF文档语义信息抽取研究

张波  
【摘要】:PDF文档应用范围十分广泛,数量极其巨大,而且PDF的应用仍然处于继续发展的状态,它在不断地被更多的用户所接受和采纳。PDF应用的广泛性和它继续蓬勃发展的状态与对PDF文档的有效管理的滞后性形成了一对十分尖锐的矛盾,对PDF基于语义的精确查询和管理势在必行。 本系统的将信息抽取技术和机器学习技术的思想相结合,实现了从PDF文档中按语义抽取出有用的数据,并包装成XML文档。本系统的实现主要分为两个过程,一是通过样本学习生成抽取规则,即用户先在PDF视图环境中根据对PDF样本文档理解,创建语义模式,对页面信息附加语义,然后通过用户标记PDF样本文档中的数据项,并在用户创建的语义模式中选择相应的语义项,在语义模式语义项与PDF样本文档中数据项之间建立映射关系;在创建语义模式、建立映射关系的同时,用户将PDF样本文档也提交到预处理模块,经过转化得到样本XML文档;系统针对前面建立的映射关系和样本XML文档进行自动地学习,生成抽取规则;二是利用抽取规则从文档集中抽取出有用数据,并自动包装成包含语义的数据,即用户将PDF文档集及其领域信息一起提交给系统,系统自动地将文档集通过预处理生成Well-formed XML文档集,同时根据领域知识获取相应的抽取规则,然后自动地将抽取规则应用于Well-formed XML文档集,得到具有自描述性的包含语义的XML文档。本系统对于实现PDF文档基于语义的精确查询和管理具有十分重要的现实意义。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 钟生海;邱玉辉;;基于情感语义的个性化推荐研究[J];西南师范大学学报(自然科学版);2011年04期
5 郝瑞;修磊;;基于语义的实时远程证明方法研究[J];山西经济管理干部学院学报;2011年02期
6 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
7 肖庆;焦健;;网络安全策略与措施的语义一致性研究[J];计算机技术与发展;2011年08期
8 肖苏华;李迪;;一种面向计算机数控领域的建模语言[J];机床与液压;2011年15期
9 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
10 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
中国重要会议论文全文数据库 前10条
1 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
2 于冰;于守健;丁祥武;乐嘉锦;;基于多层次接口匹配的语义Web服务自动组合研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 洪忻;;网上语言翻译的质量改进策略[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
4 李霖;王红;朱海红;李德仁;;基于形式本体的地理概念语义分析方法[A];中国地理学会2007年学术年会论文摘要集[C];2007年
5 章真;曹云娟;;模糊集论形式公理化初探[A];1996中国控制与决策学术年会论文集[C];1996年
6 陈玉;;搭配研究及其实际意义[A];福建省外国语文学会2002年会论文集[C];2002年
7 聂文龙;;法律逻辑中的内涵逻辑方法[A];第十四届全国法律逻辑学术讨论会论文集[C];2006年
8 张华;;浅析“再见”和“拜拜”[A];语言学论文选集[C];2001年
9 陈铁凤;;俄语口语截短复合词研究[A];中国首届“海峡两岸俄语教学与研究学术讨论会”论文集[C];2005年
10 贾雪琴;;基于语义的医疗卫生信息集成[A];中国通信学会信息通信网络技术委员会2009年年会论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 乐天编译;语义Web何时展翅高飞?[N];计算机世界;2007年
3 周凤章;药品包装图形语义浅析[N];中国包装报;2001年
4 乐天 编译;语义Web:电脑能懂的网络[N];计算机世界;2011年
5 彭芳;搜索也专业[N];中国计算机报;2004年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 沈敬怡;谁叩响了Web3.0之门[N];中国高新技术产业导报;2008年
8 兰瑞平;提高语文解题能力从语义语境语感入手[N];北京日报;2006年
9 本报记者 谌力;标准太多[N];网络世界;2007年
10 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 王葆华;动词的语义及论元配置[D];复旦大学;2003年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 何召卫;受限本体相似[D];北京邮电大学;2008年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
7 陈华钧;Web语义查询与推理研究[D];浙江大学;2004年
8 刘佐艳;语义的模糊性与民族文化[D];黑龙江大学;2003年
9 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
10 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
7 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
8 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
9 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
10 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026