收藏本站
《湖南大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征的传统科技论文结构化析取关键技术研究

陈建国  
【摘要】:科技论文是科学技术研究活动产出的一种重要形式,是促进现代科学技术转化为现实生产力的重要媒介。目前科技论文大多采用文字处理软件(如Microsoft Word等)进行编辑,由于Word等格式为非结构化的文本,不能直接提取标题、作者、摘要、关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、关联分析等高层次应用需求。 本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文的基本构成和格式特征,基于特征学习提炼析取规则,设计并实现一个传统论文结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本。论文的主要工作和创新包括: 1)通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技论文的结构化存储要求,设计并实现了一个科技论文结构化析取的总体技术框架,该框架具有良好的可扩展性。 2)提出一种Word文档结构化信息析取算法,该算法由三部分组成:首先,样本学习:由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本学习,标识Word文档中各论文要素的文本、格式特征,生成析取规则并存入规则文档库。其次,信息析取:选择与预析取期刊论文相对应的析取规则,从Word文档提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,生成多维论文:自动生成基于XML的符合多维科技论文存储格式的结构化多维科技论文。 3)设计并实现一个基于特征的传统科技论文结构化析取系统XWordExchanger。系统开发集成信息析取技术、XML结构化技术和机器学习技术,目前该系统试用情况良好。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.52

【参考文献】
中国期刊全文数据库 前10条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
3 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
4 郭俊文;衡星辰;邵利平;覃征;田磊;王妮;;一种基于XML文档聚类的XML近似查询算法[J];计算机工程;2006年15期
5 魏东平;宗德君;孙华国;;基于DTD的XML索引查询技术[J];计算机工程;2009年18期
6 陈国胜;何宗明;;基于XML技术的Word文档录入及格式检测系统设计[J];计算机时代;2009年04期
7 于帆;王振铎;王振辉;;基于XML异构数据库集成中间件的设计与实现[J];计算机应用研究;2007年09期
8 黄毅;钟碧良;;基于XML的异构数据库间数据迁移的研究[J];科技管理研究;2008年08期
9 陈斌;我国科技期刊国际化的现状、问题和建议[J];山东大学学报(哲学社会科学版);2005年05期
10 赵圣猛;赵雷;;一种优化的XML文档模型映射方案[J];微电子学与计算机;2009年10期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前4条
1 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
2 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
3 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
2 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
3 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
4 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
5 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
6 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
7 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
8 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
9 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
10 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
2 王洪荣;吴保国;;异构数据库间数据交换工具的设计与实现[J];北京林业大学学报;2009年S2期
3 郑芹珠;任丹青;张慧;;我国科技期刊如何获取国际稿件[J];编辑学报;2007年02期
4 李爱玲;;我国科技期刊的国际交流与合作研究现状[J];编辑学报;2008年01期
5 程维红;任胜利;王应宽;方梅;路文如;;对建设中国科协科技期刊网络平台的问卷调查[J];编辑学报;2008年05期
6 林志祥;甘可建;钟均行;;网络编辑岗位设置在科技期刊网络化进程中的重要性[J];编辑学报;2008年05期
7 欧红叶;黄颖;游中胜;李若溪;;学术期刊编辑对开放获取认识的调查与分析[J];编辑学报;2008年06期
8 史利红;董瑾;方梅;;《软件学报》海外华人读者问卷调查与结果分析[J];编辑学报;2010年01期
9 陈柏福;;中国英文版科技期刊的出路:走向国际化[J];编辑学报;2011年03期
10 陈竹;;我国科技期刊数字化出版的发展思路[J];编辑学报;2011年S1期
中国重要会议论文全文数据库 前10条
1 陈竹;;我国科技期刊数字化出版的发展思路[A];第11届中国科技期刊青年编辑学术研讨会暨科技期刊立体化出版模式论坛论文集[C];2011年
2 孔琪颖;蔡斐;张利平;徐晓;;学术期刊品牌网络营销——以《航空学报》中、英文版为例[A];第3届科技期刊发展创新研讨会论文集[C];2011年
3 韩永珍;;中文科技期刊国际化的途径[A];科学评价促发展 品质服务谋共赢——第九届(2011)全国核心期刊与期刊国际化、网络化研讨会论文集[C];2011年
4 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 王凤产;李红星;;学术期刊开放存取及其策略研究[A];中国高校学术出版文集2008年第1卷——中国高等学校自然科学学报研究会第12次年会论文集[C];2008年
7 李颖;刘连忠;;基于数据绑定技术的数据交换系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
8 张英;李时群;徐建华;;论我国科技期刊国际化的发展策略[A];第五届全国核心期刊与期刊国际化、网络化研讨会论文集[C];2007年
9 吴锦雅;王征爱;陈旺忠;黄开颜;宋建武;;我国科技期刊的现状及可持续发展对策[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年
10 杨青;;学术期刊建设独立网站的探索与实践——《中国新药杂志》网络化历程[A];2008年第四届中国科技期刊发展论坛论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
5 王静;面向复杂产品的工业CT图像重建与分析技术[D];西北工业大学;2004年
6 丘宏俊;基于知识的飞机装配工艺设计关键技术研究[D];西北工业大学;2006年
7 奚砚涛;基于开源技术的煤矿地测数据服务体系研究[D];中国矿业大学;2008年
8 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
9 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
10 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
2 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
3 程帅;应急通信监控系统中故障诊断系统间协同机制的研究[D];沈阳理工大学;2010年
4 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
5 付丽霞;钢铁企业质量管理与数据集成[D];昆明理工大学;2008年
6 史磊;基于Web的远程监控系统人机界面设计与实现[D];西安电子科技大学;2011年
7 王岩;基于XML技术历史数据归档与重构的研究应用[D];太原理工大学;2011年
8 米洋;基于XML的电子病历系统的设计与实现[D];河北科技大学;2010年
9 张春玲;学术期刊电子稿件参考文献自动校验的XML解决方案[D];吉林大学;2011年
10 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 杭建平;我国制造业企业信息化现状分析[J];北京机械工业学院学报;2002年02期
2 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
3 李若溪;黄颖;欧红叶;游中胜;Fytton Rowland;;国际学术出版开放式访问(OA):Ⅰ.实践与前沿问题研究进展[J];编辑学报;2006年03期
4 李若溪;Fytton Rowland;;国际学术出版开放式访问(OA):Ⅱ.开放访问期刊“作者付费模式”的实践与争论[J];编辑学报;2006年04期
5 曹亮,王茜,卢菁;XML数据在关系数据库中存储和检索的研究和实现[J];东南大学学报(自然科学版);2002年01期
6 张少应;胡宏涛;赵亚妮;;企业信息门户的研究及应用实例分析[J];电脑开发与应用;2006年05期
7 郭晓梅;XML:数据交换的革命[J];电脑知识与技术;2004年35期
8 黄凯文,刘芳;网络科学信息资源“公开获取运动”的模式与方法[J];大学图书馆学报;2005年02期
9 康建军;陈淳鑫;赵方;雷友珣;宋茂强;;基于BizTalk Server的工作流引擎的研究与实现[J];电子技术应用;2006年02期
10 吴劲,陈泽琳;基于部分匹配的XML文本文档向量检索模型[J];电子学报;2002年S1期
中国硕士学位论文全文数据库 前10条
1 王照岳;XML查询处理技术研究与实现[D];浙江大学;2002年
2 王兴芳;基于XML的SQL查询扩展的研究与实现[D];暨南大学;2002年
3 郭永明;XML文档检索技术研究[D];太原理工大学;2003年
4 孙登峰;XML文档信息检索技术研究与实现[D];中国人民解放军国防科学技术大学;2002年
5 许利杰;XML与数据库的接口的研究与实现[D];昆明理工大学;2003年
6 罗时辉;XML数据存储管理系统[D];南京理工大学;2003年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 郝亚南;基于语义的数据格式转换[D];河北大学;2003年
9 何玉菁;基于XML/Java的元搜索引擎的研究[D];广东工业大学;2004年
10 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 杜惠芝;Word 7.0在编辑出版工作中的应用[J];情报杂志;1998年01期
2 王永礼,倪惠琼;用电脑备课[J];淮南师范学院学报;1999年03期
3 蒋先刚;在Word中绘制给定离散型值点的曲线[J];电脑编程技巧与维护;1999年08期
4 ;如何解决Word中的“大红叉”问题[J];电脑技术;2001年06期
5 江德华;让Word更具吸引力[J];电脑爱好者;2001年03期
6 红扬,天剑;怎样在Word中调用自己造的字[J];电脑技术;2002年05期
7 杰子;打开文档时为何Word无响应[J];中国会计电算化;2002年02期
8 马金虎;用C#来玩转Word[J];电脑编程技巧与维护;2002年11期
9 ;妙用Word右键,提高效率[J];计算机与农业;2003年03期
10 尹贵祥;通用试题库系统中数据存储和检索的技术处理[J];伊犁师范学院学报;2003年04期
中国重要会议论文全文数据库 前10条
1 刘兵;徐华;钱龙华;周国栋;;依存信息在蛋白质关系抽取中的作用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 刘向宇;杨晓春;于戈;;一种基于特征类的高精度隐私保护数据发布方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 边征莹;祁建琴;;Word文档转方正文件应注意的几个问题[A];学术期刊编辑学理论与实践[C];2010年
4 王华菊;陈竹;金丹;李洁;;应用Word排版的经验技巧[A];第3届科技期刊发展创新研讨会论文集[C];2011年
5 李满春;周丽彬;;基于特征的空间数据库模型设计与实现[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 马瑞民;马永生;;基于C/S模式编制Word文档的一种方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 尹显东;李在铭;姚军;唐丹;邓君;;基于彩色和局部特征信息的人脸检测[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
8 李鸿;马小平;;基于特征的粒表示研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 万杰;刘辉;胡敏;;一种基于特征点的三维网格数字水印算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
10 李佳;魏更宇;胡楠;王枞;杨义先;;基于特征自生成的畸形SIP信令检测算法[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年
中国重要报纸全文数据库 前10条
1 柳坚;让Word和PDF“亲密接触”[N];电脑报;2004年
2 陈秀峰;Word的域和公式[N];电脑报;2003年
3 刘向晨;用Word也能处理照片[N];中国电脑教育报;2003年
4 广东 张玉权;挖掘Word 97的潜能[N];中国电脑教育报;2000年
5 江苏 缪陈海;Word使用另类技巧[N];中国电脑教育报;2001年
6 西贝;Word编辑故障问答[N];中国电脑教育报;2002年
7 陈秀峰;Word的域和公式[N];电脑报;2003年
8 陈秀峰;Word的域和公式[N];电脑报;2003年
9 陈秀峰;Word的域和公式[N];电脑报;2003年
10 陕西 张树忠 张薇;三盒“万金油”拯救残缺Word[N];电脑报;2005年
中国博士学位论文全文数据库 前10条
1 刘绍龙;[D];广东外语外贸大学;2002年
2 张金萍;基于特征的通用工件立体识别及其关键技术的研究[D];东北大学;2008年
3 Xu Luomai;[D];广东外语外贸大学;1999年
4 梅健强;基于特征的时变流体可视化研究[D];天津大学;2012年
5 Hongbiao CHEN;[D];广东外语外贸大学;2001年
6 WANG Jiayue;[D];广东外语外贸大学;2003年
7 付哲;基于特征的面向对象虚拟GIS数据模型及其应用研究[D];吉林大学;2006年
8 琚娟;基于特征的数字城市地下空间建模技术研究与应用[D];同济大学;2007年
9 姜杉;基于特征零件结构并行设计技术研究[D];天津大学;2004年
10 张丽;漩涡检测与基于特征的流体可视化方法研究[D];山东大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
2 李佩琛;基于支持向量机的Word试题分析[D];河南大学;2010年
3 邱婷婷;基于特征进程和数据挖掘的P2P流量识别技术[D];西安电子科技大学;2011年
4 Wang Hui;[D];广东外语外贸大学;2001年
5 于淼;新语言革命[D];对外经济贸易大学;2002年
6 李杨;[D];北京语言大学;2004年
7 陈天奇;基于特征的矩阵分解模型[D];上海交通大学;2013年
8 林敏;非英语专业本科生词汇记忆与观念、策略[D];暨南大学;2001年
9 ZHOU PIN;[D];广东外语外贸大学;2001年
10 赵梦菲;法律语言的模糊性[D];对外经济贸易大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026