收藏本站
《南京农业大学》 2010年
加入收藏

非相关文献知识发现方法及在农业经济学中的应用

黄水清  
【摘要】:科学知识,是人类科学活动的产出品,而科学文献则是记录、存贮、传播科学知识的载体,人类的科学知识一般以科学文献的数量计量。普赖斯在他的名著《巴比伦以来的科学》中揭示了科学知识与科学文献的指数增长规律。二战以来,以指数方式增长的科学知识和科学文献其数量已达到惊人的地步,这种现象被称为信息爆炸或知识爆炸。以期刊论文为例,2008年国内期刊当年发表的农业经济学期刊数量大约是1989年的17倍。在知识爆炸的时代,人类其实被自身创造的科学知识所淹没。人类科学知识的总量与人类的吸收能力之间的矛盾日益突出,科技工作者只能做选择性地阅读。任何一个农业经济学研究人员都无法通读当年的农业经济学文献。选择性地阅读带来的后果必然是对知识及知识与知识之间的联系的遗漏。即便是全面、完整地阅读,对隐含在海量文献之间的知识与知识之间的内在的、隐秘的联系仅凭人类个人的智力也很难发现。 客观世界是普遍联系的世界,在海量的分裂状知识或科学文献之间存在着各式各样的联系,这些联系有相当一部分仅通过常规的查询与阅读是不能得到的。1986年,美国芝加哥大学的数学教授Don R. Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献的知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,非相关文献知识发现既涉及知识发现技术,也涉及具体的学科领域。二十多年来,非相关文献知识发现成为计算机、情报学和知识发现领域学科(如医学、生物、工程、管理)的共同研究对象,相关研究论文在各学科的学术期刊均有发表。各个学科的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续地研究,相继发现了更多的新知识、新联系,其知识发现应用领域也从单纯的医学、生物学领域拓展到了航空航天、工程技术乃至人文科学。 农业经济是一门有自己的独特研究对象、研究方法、研究目的及悠久的历史与传统的成熟科学,与其它学科一样,现时代的农业经济也面临着专业细化、方向繁多的问题。农业经济学也无法避免Swanson所谓的知识片断化与分裂化倾向。即,农业经济学的知识总量与研究人员的吸收能力之间存在着巨大的差距;农业经济学内部的专业领域划分越来越细,专业之间的知识交流变得更加困难;一个专业领域的信息可能对另一个专业领域是有价值的,领域与领域之间存在着潜在的未被发现的关联。非相关文献知识发现方法及其在农业经济学中的应用研究,就是以Swanson的非相关文献知识发现思想为理论基础,以农业经济学科为学科领域,以国内核心期刊上发表的农业经济学论文为文献源,结合中文信息自动化处理的各项技术,研究适合农业经济学的非相关文献知识发现理论、算法和应用案例,寻找隐藏在现有文献间的关联概念,并以农业经济理论和方法论证关联概念的现实性,验证新知识的正确性。 本文试图在两个方面取得突破。首先,在方法论方面,在分析、总结、比较非相关文献知识发现国内外现有研究成果与算法模型的基础上,本文试图结合国内期刊论文的特点和农业经济学的实际情况,为农业经济学文献设计一套逻辑上可行、操作上简便的知识发现方法,完整解决文献集合、词表体系、分词方案、算法模型等难点问题;其次,在知识发现实践方面,本文试图依据Swanson的非相关文献知识发现思想,以国内核心期刊上发表的农业经济学期刊论文为文献对象,发现若干对与农业经济有关的关联概念,也即发现新知识。 本文首先在对国内外非相关文献知识发现的研究论文进行总结、归纳、分析的基础上,详尽地探讨了非相关文献知识发现思想模式下概念与概念之间的关联方式,针对Swanson的非相关文献知识发现的A-B-C模式和Gordon的中介文献思想,分别对应地提出了单一关联、单级关联、多级关联的概念,更进一步地,创建了多重关联和复合关联模型,给出了多级关联、多重关联和复合关联模式下非相关文献知识发现的开放式与闭合式知识发现过程的路径图。并借鉴在自然语言处理领域被广泛接受的向量空间模型,依据复合关联模式下非相关文献知识发现的开放式与闭合式过程路径图,设计了复合关联模式下非相关文献知识发现的算法模型,包括开放式算法模型与闭合式算法模型。 然后,本文创建了农业经济学非相关文献知识发现语料库。首先以软件手段下载、转换得到用于非相关文献知识发现的农业经济学期刊论文题录数据库,该数据库包括了1989至2008年的二十年间国内所有核心期刊上发表的属于农业经济领域的全部研究论文,共87506篇,并建立了由停用词、通用词表、专业词表、同义词表构成的农业经济学非相关文献知识发现的词表体系。其中的专业词表是专门为农业经济学非相关文献知识发现而创建的,包括与农业经济有关的专业词汇96391个,设计并实现了用于文献集合自动分词的自适应分词算法。自适应分词算法在未登录词识别的召回率方面优于国内的其它算法,很适合非相关文献知识发现对专业领域的新词和概念重视程度较高的需求。 接着,本文的研究进入农业经济学非相关文献知识发现实践阶段。通过自行编写的工具软件,实现了复合关联模式下基于向量空间模型的非相关文献知识发现算法,并以从维普期刊库中下载的题录为知识发现的文献集合,利用自行建立的词表体系,运行和实施了基于国内核心期刊农业经济学期刊论文的非相关文献知识发现过程,发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统三对关联概念。最后,遵循农业经济学的理论和逻辑验证并确认了这三对关联概念为农业经济领域的新知识。这些知识在此前从未引起国内农业经济领域研究人员的联想,在国内核心期刊公开发表的农业经济学文献中都没有报道,但这些知识隐藏在国内农业经济学期刊论文之间。 本文的创新之处主要体现在以下三个方面: 建立了非相关文献知识发现的复合关联模式。 复合关联的概念与思想,在此前的国内外文献均未有类似提法。为了导出并描述非相关文献知识发现的复合关联模式,本文还分别提出了单级关联、多级关联、单一关联、多重关联的概念。单级关联、单一关联和多级关联的思想之前已经是研究者提出的成熟思想,但概念与提法为本文首次提出。本文将其纳入了复合关联的框架下并用新概念分别命名了对应的思想和方法。多重关联的概念与思想则是本文首次创立,已知文献中从未涉及。 基于向量空间模型设计了复合关联模式下的非相关文献知识算法模型。 本文基于向量空间模型设计了复合关联模式下的非相关文献知识发现的算法模型,并对算法效率进行了分析。该算法模型在Swanson及其它学者的论文中均没有涉及,文献调研中也没有发现相似或相近的算法。该算法模型效率较高,与文献集合做一次全局分析的时间代价相当。随后的程序实现和具体的农业经济学非相关文献知识发现实践也验证了该算法模型的可性行与合理性。该算法模型还充分考虑了汉语文献与农业经济领域的特殊性,解决了汉语文献自动分词以及农业经济领域专业词表与同义词的构建等问题。 发现了三对隐含在文献中的关联概念,并证明这三对关联概念可作为国内农业经济学领域的新知识。 以1989年至2008年的二十年间国内所有核心期刊上发表的与农业经济领域相关的期刊论文的篇名和摘要为对象,以自行开发的复合关联模式知识发现软件为工具,通过开放式和闭合式两阶段非相关文献知识发现过程的运行,本文发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统等概念之间的关联,并以农业经济学的理论与逻辑验证了这三对概念之间的关联的正确性,成为农业经济领域的新知识。检索国内文献,在目前能检索到的所有国内核心期刊上登载的农业经济学论文中对以上三对概念之间的联系从未涉及,相关文献为零。 通过农业经济学非相关文献知识发现研究在方法论和知识发现实践两方面的工作,本文可以得出结论:在类似农业经济这样的人文社会科学领域,以国内的期刊文献为数据源,实现非相关文献的知识发现,是可行的,也是可以得出有价值的成果的,并能为农业经济学的研究提供新的方法与新的思路。 此外,新知识发现是一个无止境的过程。本文在现有数据集的基础上发现了三条新知识,但这并不代表现有的数据集只隐含了这三条新知识。后续的研究者在现有数据集的基础上,经过细致的工作,一定可以挖掘、发现更多的农业经济领域的新知识。
【关键词】:农业经济 汉语 知识发现 非相关文献 Swanson
【学位授予单位】:南京农业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:G350
【目录】:
  • 摘要9-12
  • ABSTRACT12-16
  • 第一章 导论16-28
  • 1.1 研究背景16-18
  • 1.2 研究目的与意义18-21
  • 1.2.1 研究目的18-20
  • 1.2.2 研究意义20-21
  • 1.3 研究内容与方法21-28
  • 1.3.1 研究内容22-23
  • 1.3.2 研究方法与技术路线23-25
  • 1.3.3 可能的创新25-28
  • 第二章 基于文献的知识发现与非相关文献知识发现28-60
  • 2.1 基于文献的知识发现28-30
  • 2.2 非相关文献知识发现30-32
  • 2.3 SWANSON的非相关文献知识发现算法32-38
  • 2.3.1 Swanson非相关文献知识发现的原理32-34
  • 2.3.2 Swanson的开放式知识发现过程34-36
  • 2.3.3 Swanson的闭合式知识发现过程36-37
  • 2.3.4 Arrowsmith系统37-38
  • 2.4 非相关文献知识发现的其它算法38-51
  • 2.4.1 Gordon和Lindsay基于词频统计的方法38-39
  • 2.4.2 Weeber的两步式知识发现过程与DAD系统39-41
  • 2.4.3 Johannes Stegmann的同现词分析41-42
  • 2.4.4 Pratt和Yetisgen-Yildiz的LitLinker42-44
  • 2.4.5 Padmini Srinivasan的文本挖掘算法44-46
  • 2.4.6 Wei Huang等人的新连接预测算法46-47
  • 2.4.7 Van der Eijk等人的关联概念空间47-48
  • 2.4.8 Wren等人的随机模型48-49
  • 2.4.9 Hristovski等人的BITOLA49-50
  • 2.4.10 Xiaohua Hu等人的Bio-sbKDS50-51
  • 2.5 非相关文献知识发现算法的总结与比较51-55
  • 2.5.1 非相关文献知识发现算法评述51-53
  • 2.5.2 非相关文献知识发现算法的比较53-54
  • 2.5.3 非医学领域的非相关文献知识发现实践54-55
  • 2.6 国内对非相关文献知识发现的研究55-60
  • 2.6.1 国内非相关文献知识发现研究的主题55-57
  • 2.6.2 国内非相关文献知识发现研究的特点57-60
  • 第三章 农业经济学非相关文献知识发现的算法模型60-86
  • 3.1 非相关文献知识发现与学科领域关系的分析60-64
  • 3.1.1 什么样的学科领域适用非相关文献知识发现方法60-62
  • 3.1.2 哪些学科的国内文献适合进行非相关文献知识发现62-63
  • 3.1.3 国内的农业经济学文献适合开展非相关文献知识发现的理由63-64
  • 3.2 非相关文献知识发现复合关联模型的创立64-68
  • 3.2.1 单级关联与多级关联的定义及知识发现路径图64-66
  • 3.2.2 单一关联与多重关联的定义及知识发现路径图66-67
  • 3.2.3 复合关联的定义及知识发现路径图67-68
  • 3.2.4 复合关联对算法模型的约束与要求68
  • 3.3 基于向量空间模型设计复合关联算法的可能性68-71
  • 3.3.1 向量空间模型的原理69-70
  • 3.3.2 复合关联算法设计的基本思路70-71
  • 3.4 开放式知识发现算法的设计71-77
  • 3.4.1 算法原理72-74
  • 3.4.2 算法流程74-77
  • 3.5 闭合式知识发现算法的设计77-81
  • 3.5.1 算法原理78-79
  • 3.5.2 算法流程79-81
  • 3.6 新算法的效率与性能分析81-86
  • 3.6.1 新算法的运行效率82-83
  • 3.6.2 新算法与已有算法的性能比较83-86
  • 第四章 农业经济学非相关文献知识发现的数据集86-104
  • 4.1 国内农业经济学文献的文献源86-89
  • 4.1.1 国内文献源分析86-88
  • 4.1.2 农业经济学文献源的选择88-89
  • 4.2 农业经济学非相关文献知识发现的文献集合89-92
  • 4.2.1 维普期刊论文题录的下载90-91
  • 4.2.2 维普题录数据的转换91-92
  • 4.2.3 农业经济题录数据库的构建92
  • 4.3 农业经济学非相关文献知识发现的词表体系92-97
  • 4.3.1 停用词表93
  • 4.3.2 通用词表93-94
  • 4.3.3 农业经济专业词表94-96
  • 4.3.4 同义词表96-97
  • 4.4 农业经济学文献的分词及词表维护97-104
  • 4.4.1 非相关文献知识发现自动分词的特殊性97-99
  • 4.4.2 自适应分词算法99-100
  • 4.4.3 农业经济文献题名与文摘的分词100-102
  • 4.4.4 词表的更新与维护102-104
  • 第五章 农业经济学非相关文献知识发现的实践104-118
  • 5.1 开放式知识发现过程104-109
  • 5.1.1 文献语词矩阵的生成104-106
  • 5.1.2 语词关联度矩阵的生成106
  • 5.1.3 计算所有可能A词与C词的关联度106-108
  • 5.1.4 筛选A词及对应的C词108-109
  • 5.2 闭合式知识发现过程109-114
  • 5.2.1 Swanson方法109-111
  • 5.2.2 复合关联方法111-112
  • 5.2.3 Swanson方法与复合关联方法的结合112-114
  • 5.3 关联概念及中间词集合的整理与归纳114-118
  • 5.3.1 世界贸易组织与原教旨主义114-115
  • 5.3.2 马尔萨斯与生态学115-116
  • 5.3.3 保险费率与地理信息系统116-118
  • 第六章 关联概念在农业经济领域的验证118-136
  • 6.1 世界贸易组织与原教旨主义的内在联系118-123
  • 6.1.1 世界贸易组织118-120
  • 6.1.2 原教旨主义120-122
  • 6.1.3 世界贸易组织与能量、生态及市场原教旨主义的关联122-123
  • 6.2 作为生态学家的马尔萨斯123-129
  • 6.2.1 马尔萨斯123-125
  • 6.2.2 生态学125-127
  • 6.2.3 马尔萨斯是否生态学家的讨论127-129
  • 6.3 区域农业保险费率厘定与地理信息系统的应用129-134
  • 6.3.1 区域农业保险费率的厘定129-131
  • 6.3.2 地理信息系统在风险评估与风险分析方面的应用131-132
  • 6.3.3 地理信息系统应用于区域农业保险费率厘定的可能性132-134
  • 6.4 关联成立的意义及对农业经济学的作用134-136
  • 第七章 总结与展望136-142
  • 7.1 所做的主要工作136-137
  • 7.2 本文的创新之处137-138
  • 7.3 存在的问题及后续研究工作138-142
  • 参考文献142-150
  • 致谢150-152
  • 攻读学位期间发表的学术论文目录152

【相似文献】
中国期刊全文数据库 前10条
1 李勇;冷伏海;王林;;基于非相关文献的三阶知识发现方法探讨[J];中国图书馆学报;2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 杨迎春;;论农技协发展与资金瓶颈[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
2 喻国华;曾艳;;都市型现代农业发展中的政府责任[A];第十一届中国科协年会第26分会场都市型现代农业学术研讨会论文专集[C];2009年
3 张露;马康贫;;南京都市型现代农业的实践与发展[A];第十一届中国科协年会第26分会场都市型现代农业学术研讨会论文专集[C];2009年
4 刘光辉;;发挥农技协的作用 促进农村经济社会发展[A];第十届中国科协年会论文集(四)[C];2008年
5 詹晨晖;颜峥;;农村土地流转意愿度模型的构建与应用——以重庆市为例[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
6 张建华;沈叙元;;农村宅基地集约化利用的新机制探索[A];转变经济增长方式与土地节约利用——2006中国科协年会12专题分会场第4单元会场论文集[C];2006年
7 陈立新;;以人为本是解决土地沙漠化问题的关键[A];土地利用的城乡统筹和区域统筹——2007中国科协年会8.3分会场论文集[C];2007年
8 张建华;沈叙元;;农村宅基地集约化利用的新机制探索[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
9 陈立新;;以人为本是解决土地沙漠化问题的关键[A];节能环保 和谐发展——2007中国科协年会论文集(二)[C];2007年
10 李俊敏;于海清;余明全;;统筹区域土地利用探讨[A];第十届中国科协年会“新时期河南土地供需态势与城乡统筹发展”论坛文集[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 梁华文;创新兴企报桑梓[N];中国工业报;2010年
2 记者 古月;“海归”变身现代职业农民[N];无锡日报;2009年
3 王瑜 高瑗 实习生 刘建波 慕容素娟(本报记者 王瑜);“博士种菜”,也只是一种生活方式[N];工人日报;2010年
4 真夫子;海西战略的另一个层面[N];人民日报海外版;2009年
5 记者 林堃 贵枝 跃辉;台胞祖地有“新家”[N];闽南日报;2009年
6 本报记者 王晓东;探路者王荣[N];21世纪经济报道;2009年
7 通讯员 陈胜伟 临安记者站 管光前;临安学子问鼎国际农林学界[N];杭州日报;2010年
8 袁元;中国高肉价下的美国偷猪潮[N];证券日报;2011年
9 通讯员 张春生 乔亨;谁不夸咱家乡路[N];驻马店日报;2009年
10 苏燕;从计生办主任到跨省科特派[N];闽北日报;2010年
中国博士学位论文全文数据库 前2条
1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
2 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑京辉;民国农村经济调查与近代中国农业经济学的兴起[D];河北大学;2009年
2 李志燕;汉语非相关文献知识发现的研究与系统实现[D];南京农业大学;2007年
3 成鹏;基于语义Web的知识元集成模型研究[D];西安电子科技大学;2007年
4 单昆;基于农户视角的农业技术服务有效性研究[D];山东农业大学;2010年
5 杨觐菲;恩施土家族苗族自治州茶产业发展研究[D];中央民族大学;2012年
6 张兰英;孙中山农业经济思想研究[D];河北大学;2010年
7 马绍菂;甘肃特色农业发展研究[D];甘肃农业大学;2011年
8 吴兆美;青州市农业推广模式研究[D];西北农林科技大学;2011年
9 蔡江波;河北省基层农技推广区域站建设研究[D];河北农业大学;2012年
10 王永江;信息技术在吉林省农业中的应用研究[D];中国农业科学院;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026