收藏本站
《湖南大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征的传统科技论文结构化析取关键技术研究

陈建国  
【摘要】:科技论文是科学技术研究活动产出的一种重要形式,是促进现代科学技术转化为现实生产力的重要媒介。目前科技论文大多采用文字处理软件(如Microsoft Word等)进行编辑,由于Word等格式为非结构化的文本,不能直接提取标题、作者、摘要、关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、关联分析等高层次应用需求。 本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文的基本构成和格式特征,基于特征学习提炼析取规则,设计并实现一个传统论文结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本。论文的主要工作和创新包括: 1)通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技论文的结构化存储要求,设计并实现了一个科技论文结构化析取的总体技术框架,该框架具有良好的可扩展性。 2)提出一种Word文档结构化信息析取算法,该算法由三部分组成:首先,样本学习:由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本学习,标识Word文档中各论文要素的文本、格式特征,生成析取规则并存入规则文档库。其次,信息析取:选择与预析取期刊论文相对应的析取规则,从Word文档提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,生成多维论文:自动生成基于XML的符合多维科技论文存储格式的结构化多维科技论文。 3)设计并实现一个基于特征的传统科技论文结构化析取系统XWordExchanger。系统开发集成信息析取技术、XML结构化技术和机器学习技术,目前该系统试用情况良好。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.52

免费申请
【参考文献】
中国期刊全文数据库 前3条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
3 陈斌;我国科技期刊国际化的现状、问题和建议[J];山东大学学报(哲学社会科学版);2005年05期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前3条
1 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
2 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
3 孙宏伟;XML与RDB的多层次双向数据集成技术研究[D];西北工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
2 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
3 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
4 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
5 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
6 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
7 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
8 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
9 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
10 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
【共引文献】
中国期刊全文数据库 前1条
1 郑芹珠;任丹青;张慧;;我国科技期刊如何获取国际稿件[J];编辑学报;2007年02期
中国重要会议论文全文数据库 前5条
1 李颖;刘连忠;;基于数据绑定技术的数据交换系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
2 张英;李时群;徐建华;;论我国科技期刊国际化的发展策略[A];第五届全国核心期刊与期刊国际化、网络化研讨会论文集[C];2007年
3 吴锦雅;王征爱;陈旺忠;黄开颜;宋建武;;我国科技期刊的现状及可持续发展对策[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年
4 彭子平;张严虎;潘露露;;隐马尔科夫模型原理及其重要应用[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
5 张春玲;王桂萱;张慧敏;孔鲁文;;保留数据语义约束的关系模式到XML模式的映射[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库 前2条
1 王静;面向复杂产品的工业CT图像重建与分析技术[D];西北工业大学;2004年
2 丘宏俊;基于知识的飞机装配工艺设计关键技术研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 牟进;OGSA/WSRF架构下的企业应用动态集成的研究与应用[D];南京航空航天大学;2005年
2 吴凤娟;大地测量信息接口技术的研究与实践[D];解放军信息工程大学;2006年
3 范健伟;面向PLM的工艺准备技术研究[D];西北工业大学;2007年
4 罗锋;B2C购物网站商品信息推送系统的研究与设计[D];华中师范大学;2007年
5 徐俊杰;基于XML的数据交换模型研究[D];哈尔滨工程大学;2007年
6 张琛;基于UML的服务描述和服务组合生成技术研究[D];西北大学;2007年
7 李蓉;企业数据库的XML发布技术研究[D];武汉理工大学;2007年
8 李黎;基于XML的异构数据库数据集成技术研究[D];四川师范大学;2007年
9 李德有;基于XML电子病历数据存贮与转换的研究[D];哈尔滨理工大学;2007年
10 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 李若溪;Fytton Rowland;;国际学术出版开放式访问(OA):Ⅱ.开放访问期刊“作者付费模式”的实践与争论[J];编辑学报;2006年04期
3 黄凯文,刘芳;网络科学信息资源“公开获取运动”的模式与方法[J];大学图书馆学报;2005年02期
4 康建军;陈淳鑫;赵方;雷友珣;宋茂强;;基于BizTalk Server的工作流引擎的研究与实现[J];电子技术应用;2006年02期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 李丽萍,马文阁,梁勇;XML深入剖析[J];辽宁工程技术大学学报(自然科学版);2002年02期
7 张曙;制造业信息化的内涵和策略[J];中国工程科学;2001年07期
8 陈维斌,喻小光;一种XML数据到结构化数据的转换方法[J];华侨大学学报(自然科学版);2003年02期
9 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
10 王健,杨百龙,张树生;敏捷企业及其关键使能技术[J];计算机研究与发展;2000年06期
中国硕士学位论文全文数据库 前10条
1 王照岳;XML查询处理技术研究与实现[D];浙江大学;2002年
2 王兴芳;基于XML的SQL查询扩展的研究与实现[D];暨南大学;2002年
3 郭永明;XML文档检索技术研究[D];太原理工大学;2003年
4 孙登峰;XML文档信息检索技术研究与实现[D];中国人民解放军国防科学技术大学;2002年
5 许利杰;XML与数据库的接口的研究与实现[D];昆明理工大学;2003年
6 罗时辉;XML数据存储管理系统[D];南京理工大学;2003年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 郝亚南;基于语义的数据格式转换[D];河北大学;2003年
9 何玉菁;基于XML/Java的元搜索引擎的研究[D];广东工业大学;2004年
10 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 杜惠芝;Word 7.0在编辑出版工作中的应用[J];情报杂志;1998年01期
2 王永礼,倪惠琼;用电脑备课[J];淮南师范学院学报;1999年03期
3 蒋先刚;在Word中绘制给定离散型值点的曲线[J];电脑编程技巧与维护;1999年08期
4 ;如何解决Word中的“大红叉”问题[J];电脑技术;2001年06期
5 江德华;让Word更具吸引力[J];电脑爱好者;2001年03期
6 红扬,天剑;怎样在Word中调用自己造的字[J];电脑技术;2002年05期
7 杰子;打开文档时为何Word无响应[J];中国会计电算化;2002年02期
8 马金虎;用C#来玩转Word[J];电脑编程技巧与维护;2002年11期
9 ;妙用Word右键,提高效率[J];计算机与农业;2003年03期
10 尹贵祥;通用试题库系统中数据存储和检索的技术处理[J];伊犁师范学院学报;2003年04期
中国重要会议论文全文数据库 前10条
1 边征莹;祁建琴;;Word文档转方正文件应注意的几个问题[A];学术期刊编辑学理论与实践[C];2010年
2 王华菊;陈竹;金丹;李洁;;应用Word排版的经验技巧[A];第3届科技期刊发展创新研讨会论文集[C];2011年
3 马瑞民;马永生;;基于C/S模式编制Word文档的一种方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 刘兵;徐华;钱龙华;周国栋;;依存信息在蛋白质关系抽取中的作用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 刘向宇;杨晓春;于戈;;一种基于特征类的高精度隐私保护数据发布方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 王莉虹;;在Word中插入AutoCAD[A];面向21世纪的图学教育——第十二届全国图学教育研讨会暨第三届制图CAI课件演示交流会论文集[C];2000年
7 严国兴;黄曦;张花玲;周湘晖;丁霞;王丽;鄢旭辉;高华北;;职业病危害因素检测评价Word报告Delphi编程的实现[A];湖南省预防医学会劳动卫生专业委员会2008年学术交流会议论文集[C];2008年
8 李满春;周丽彬;;基于特征的空间数据库模型设计与实现[A];中国地理信息系统协会第八届年会论文集[C];2004年
9 尹显东;李在铭;姚军;唐丹;邓君;;基于彩色和局部特征信息的人脸检测[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
10 刘华;邢海鹰;;Word在书稿加工中的应用[A];多出精品 多出人才——中国编辑学会第八届年会论文集[C];2003年
中国重要报纸全文数据库 前10条
1 柳坚;让Word和PDF“亲密接触”[N];电脑报;2004年
2 陈秀峰;Word的域和公式[N];电脑报;2003年
3 刘向晨;用Word也能处理照片[N];中国电脑教育报;2003年
4 广东 张玉权;挖掘Word 97的潜能[N];中国电脑教育报;2000年
5 江苏 缪陈海;Word使用另类技巧[N];中国电脑教育报;2001年
6 西贝;Word编辑故障问答[N];中国电脑教育报;2002年
7 陈秀峰;Word的域和公式[N];电脑报;2003年
8 陈秀峰;Word的域和公式[N];电脑报;2003年
9 陈秀峰;Word的域和公式[N];电脑报;2003年
10 陕西 张树忠 张薇;三盒“万金油”拯救残缺Word[N];电脑报;2005年
中国博士学位论文全文数据库 前10条
1 刘绍龙;[D];广东外语外贸大学;2002年
2 Xu Luomai;[D];广东外语外贸大学;1999年
3 Hongbiao CHEN;[D];广东外语外贸大学;2001年
4 WANG Jiayue;[D];广东外语外贸大学;2003年
5 张金萍;基于特征的通用工件立体识别及其关键技术的研究[D];东北大学;2008年
6 梅健强;基于特征的时变流体可视化研究[D];天津大学;2012年
7 何家宁;中国英语学生在汉译英过程中使用词典的实证研究:大学汉英学习词典模式的构建[D];广东外语外贸大学;2003年
8 付哲;基于特征的面向对象虚拟GIS数据模型及其应用研究[D];吉林大学;2006年
9 于国栋;[D];广东外语外贸大学;2001年
10 吴亚欣;语用含糊——汉语言语交际中的策略[D];广东外语外贸大学;2002年
中国硕士学位论文全文数据库 前10条
1 李佩琛;基于支持向量机的Word试题分析[D];河南大学;2010年
2 Wang Hui;[D];广东外语外贸大学;2001年
3 于淼;新语言革命[D];对外经济贸易大学;2002年
4 李杨;[D];北京语言大学;2004年
5 林敏;非英语专业本科生词汇记忆与观念、策略[D];暨南大学;2001年
6 ZHOU PIN;[D];广东外语外贸大学;2001年
7 赵梦菲;法律语言的模糊性[D];对外经济贸易大学;2002年
8 柳琼颖;广告人的目标在英文广告中的体现[D];对外经济贸易大学;2002年
9 吴金羚;英语学习词典中的例证:综述、问题与展望[D];厦门大学;2002年
10 许厚春;[D];浙江大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026