收藏本站
《河北大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

PDF文档语义信息抽取研究

张波  
【摘要】:PDF文档应用范围十分广泛,数量极其巨大,而且PDF的应用仍然处于继续发展的状态,它在不断地被更多的用户所接受和采纳。PDF应用的广泛性和它继续蓬勃发展的状态与对PDF文档的有效管理的滞后性形成了一对十分尖锐的矛盾,对PDF基于语义的精确查询和管理势在必行。 本系统的将信息抽取技术和机器学习技术的思想相结合,实现了从PDF文档中按语义抽取出有用的数据,并包装成XML文档。本系统的实现主要分为两个过程,一是通过样本学习生成抽取规则,即用户先在PDF视图环境中根据对PDF样本文档理解,创建语义模式,对页面信息附加语义,然后通过用户标记PDF样本文档中的数据项,并在用户创建的语义模式中选择相应的语义项,在语义模式语义项与PDF样本文档中数据项之间建立映射关系;在创建语义模式、建立映射关系的同时,用户将PDF样本文档也提交到预处理模块,经过转化得到样本XML文档;系统针对前面建立的映射关系和样本XML文档进行自动地学习,生成抽取规则;二是利用抽取规则从文档集中抽取出有用数据,并自动包装成包含语义的数据,即用户将PDF文档集及其领域信息一起提交给系统,系统自动地将文档集通过预处理生成Well-formed XML文档集,同时根据领域知识获取相应的抽取规则,然后自动地将抽取规则应用于Well-formed XML文档集,得到具有自描述性的包含语义的XML文档。本系统对于实现PDF文档基于语义的精确查询和管理具有十分重要的现实意义。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 陈云榕;刘立柱;丁志鸿;;PDF文件中关键信息的提取与组织方法研究[J];计算机工程与设计;2007年07期
2 刘春江;朱江;;会议文献开放资源采集与服务系统的元数据抽取[J];情报理论与实践;2012年09期
中国硕士学位论文全文数据库 前6条
1 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
2 何莹;生物信息文献数据库构建与软件Web自动发布[D];华中科技大学;2007年
3 刘平;ScienceWord软件中PDF文档的生成及其内容提取研究[D];华中科技大学;2007年
4 李计勇;面向PDF文档对象的安全保护系统设计与实现[D];哈尔滨工业大学;2009年
5 艾华;基于PDF的文献管理软件的开发[D];东北农业大学;2010年
6 俞伟飞;一种基于虚拟打印的医疗信息集成技术开发[D];浙江大学;2013年
【参考文献】
中国硕士学位论文全文数据库 前1条
1 郝亚南;基于语义的数据格式转换[D];河北大学;2003年
【共引文献】
中国期刊全文数据库 前7条
1 王政;胡文江;;基于本体语义模型的数据格式转换技术研究[J];包头职业技术学院学报;2010年04期
2 邓莎莎;梁建利;;基于互联网的异构数据源集成的研究与实现[J];上海电力学院学报;2005年04期
3 邓莎莎;李嘉;;网页数据抽取中Wrapper的维护[J];上海电力学院学报;2011年04期
4 张志强,李天柱,张波,陈少飞,郝亚南;基于文档结构的信息抽取规则的描述语言比较研究[J];河北大学学报(自然科学版);2004年02期
5 孟小峰,周龙骧,王珊;数据库技术发展趋势[J];软件学报;2004年12期
6 ;Web Database Query Interface Annotation Based on User Collaboration[J];Wuhan University Journal of Natural Sciences;2006年05期
7 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
中国重要会议论文全文数据库 前1条
1 胡东东;孟小峰;;一种基于树结构的Web数据自动抽取方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前2条
1 陈荦;分布式地理空间数据服务集成技术研究[D];国防科学技术大学;2005年
2 赵龄强;关系数据库数据组织中无α环的分解问题的研究[D];哈尔滨理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟飞燕;保温隔热材料热扩散率和热导率测试技术的研究[D];南京理工大学;2010年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
4 原军;WIIS系统中信元定制机制的研究与实现[D];东北大学;2005年
5 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
6 邓莎莎;基于互联网的异构数据源集成的研究与实现[D];中南大学;2005年
7 徐俊杰;基于MVC的智能小区物业管理系统研究与设计[D];武汉理工大学;2006年
8 袁书宏;面向学生数据中心的数据集成平台的研究、设计及实现[D];浙江大学;2006年
9 祁羽;基于Mediator/Wrapper体系的分布式空间数据集成系统研究[D];国防科学技术大学;2005年
10 张雷;社保数据集成系统的研究与应用[D];湖南大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 张付志,刘明业;一种基于元搜索引擎的数字图书馆系统集成框架[J];北京理工大学学报;2004年08期
2 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
3 周长华;PDF文件格式在档案馆的应用[J];档案学研究;2003年06期
4 陈飞;孙仁云;;利用虚拟打印生成JPEG图像文件[J];电脑知识与技术(学术交流);2007年02期
5 钮心忻,杨义先,吴志军;信息隐藏理论与关键技术研究[J];电信科学;2004年12期
6 赵继海;DRM技术的发展及其对数字图书馆的影响[J];大学图书馆学报;2002年01期
7 肖明;PDF文档的阅读与生成工具[J];电子与电脑;2000年01期
8 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
9 王建伟;谭娅娜;;医疗信息系统集成问题的探索[J];电子世界;2012年06期
10 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前5条
1 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
2 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
3 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 赵晨晖;医疗信息系统集成问题研究及实践[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
2 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
3 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
4 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
5 郑慧瑛;心电数据交换标准的建立及实现方法的研究[D];浙江大学;2006年
6 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
7 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
8 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
9 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
10 马永萍;XML文档转换技术的研究与应用[D];浙江大学;2007年
【二级引证文献】
中国期刊全文数据库 前6条
1 欧阳辉;禄乐滨;;基于SVM的论文元数据抽取方法研究[J];电子设计工程;2010年05期
2 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[J];计算机研究与发展;2010年S1期
3 陈炬桦;涂东阳;软文江;;PDF文档使用控制方法研究[J];计算机与现代化;2012年06期
4 张锐丽;高万春;吴为团;;数字化文档在辅助维修中的应用研究[J];计算机与现代化;2013年06期
5 李兰友;陈立;谢雪莲;;面向Web的PDF文档构建技术[J];计算机与现代化;2013年12期
6 李强;刘时进;;PDF阅读器的设计与实现[J];计算机工程与设计;2010年07期
中国重要会议论文全文数据库 前1条
1 周国祥;吴自文;;Acrobat插件在PDF安全中的研究与应用[A];第六届中国测试学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前6条
1 刘华中;面向PDF文档的论文元数据提取方法研究[D];燕山大学;2012年
2 潘晓东;PDF文档的生成与原始性验证研究[D];西北师范大学;2007年
3 夏艳军;蛋白质相互作用数据库系统的构建及其应用[D];湖南农业大学;2010年
4 艾华;基于PDF的文献管理软件的开发[D];东北农业大学;2010年
5 钱勇;基于终端的文档内容安全技术研究[D];西安电子科技大学;2013年
6 邓金城;面向Windows的计算机取证系统关键技术研究与实现[D];电子科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前1条
1 王海波,耿晖,姜吉发,白硕,祝明发;基于XML的数据交换的实现[J];计算机应用;2001年04期
【相似文献】
中国期刊全文数据库 前10条
1 王泉;文档处理高手[东芝e-STUDIO 550/650/810数码复合机][J];个人电脑;2003年08期
2 赵烨,王明磊,李新友;应用OCR技术的大数据量文档处理系统模型[J];计算机应用;2000年S1期
3 袁楚;;社会化的在线文档处理[J];互联网天地;2010年05期
4 黄林雄;在Word文档处理中应用绘图工具的技巧[J];教育信息化;2005年03期
5 洪新华;夏群兵;;XSLT在XML文档中的应用研究[J];电脑知识与技术;2009年05期
6 钱芳;;宝“鉴”锋从文档管理来——国内平板扫描仪文档管理市场[J];数码世界;2006年07期
7 方春燕;李宁;赵菁华;吴志刚;;《中文办公软件文档格式规范》对用户数据的支持方式探讨[J];信息技术与标准化;2006年10期
8 周建峰;;用好查找和替换,文档处理更轻松[J];电脑爱好者;2009年15期
9 江代有;文档处理大师——WPS 2000系列讲座[J];电脑知识与技术;1999年06期
10 张晓刚;;JDOM和DOM之比较[J];科学技术与工程;2006年21期
中国重要会议论文全文数据库 前10条
1 张硕;李建中;王宏志;何震瀛;;基于扩展编码的在线XML文档加载机制[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 郝海蓉;申永军;周亚建;杨义先;;基于二值图像水印的电子签章系统研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
3 张延华;王国刚;李鹏辉;刘彦春;;基于XML的QEIP-ES构建方法研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
4 靳简明;江红英;;印刷体数学公式处理研究现状[A];2001年中国智能自动化会议论文集(上册)[C];2001年
5 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 巴亮;林俐;郭亚成;沈辉;;地区电网继电保护运行决策专家系统知识结构化表示方法研究[A];2006电力系统自动化学术交流研讨大会论文集[C];2006年
7 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 马礼谦;;数码成像的发展[A];中国感光学会第六次全国感光(影像)科学大会暨第五届青年学术交流会论文摘要集[C];2001年
9 周骏;陈鸣;;在Matlab下实现SAX处理器[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 靳简明;;汉英双语OCR系统集成原则及实现[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
中国重要报纸全文数据库 前10条
1 李献;海量输出的解决之道[N];计算机世界;2008年
2 郭涛;从打印机到文档处理中心[N];中国计算机报;2002年
3 计算机世界实验室 吴挺;文档处理快枪手[N];计算机世界;2009年
4 计算机世界实验室 李献;办公输出的中坚力量[N];计算机世界;2009年
5 龚杰;Acrobat 6.0“全能”文档处理工具[N];计算机世界;2003年
6 张亚萍;炫彩900HA问市 Eee PC 900系列添新丁[N];大众科技报;2008年
7 王耀翠;廖兆存 攀登世界科技文档软件高峰[N];中国高新技术产业导报;2005年
8 李锋白;让信息摆脱纸张束缚[N];中国计算机报;2007年
9 本报记者 聂翠蓉;探索世界科技文档软件最高标准[N];科技日报;2005年
10 边歆;UOML打通文档互操作“经络”[N];网络世界;2007年
中国博士学位论文全文数据库 前3条
1 刘建胜;文档图象版面理解的研究[D];重庆大学;2002年
2 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
3 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年
中国硕士学位论文全文数据库 前10条
1 李科;通用智能文档平台设计与实现[D];浙江工商大学;2014年
2 陈水银;基于语义分析的文档排序方法研究[D];华中师范大学;2014年
3 刘瑨;基于Xproc的XML文档处理系统的设计与实现[D];华中科技大学;2013年
4 董卫博;中文文档复制检测系统的研究与实现[D];西南交通大学;2014年
5 徐继明;一种安全电子文档系统的设计与实现[D];北京邮电大学;2009年
6 胡娟丽;中文文本信息过滤技术研究[D];西安电子科技大学;2008年
7 周座;基于查询与内容的文档表示模型研究[D];南华大学;2010年
8 宋杨;嘉实基金公司知识管理系统文档管理子系统的设计与实现[D];北京邮电大学;2007年
9 任勇;企业文档管理的价值链分析及其服务外包模式研究[D];复旦大学;2009年
10 龙仙爱;基于本体的数据集成研究[D];中南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026