非相关文献知识发现方法及在农业经济学中的应用
【摘要】:科学知识,是人类科学活动的产出品,而科学文献则是记录、存贮、传播科学知识的载体,人类的科学知识一般以科学文献的数量计量。普赖斯在他的名著《巴比伦以来的科学》中揭示了科学知识与科学文献的指数增长规律。二战以来,以指数方式增长的科学知识和科学文献其数量已达到惊人的地步,这种现象被称为信息爆炸或知识爆炸。以期刊论文为例,2008年国内期刊当年发表的农业经济学期刊数量大约是1989年的17倍。在知识爆炸的时代,人类其实被自身创造的科学知识所淹没。人类科学知识的总量与人类的吸收能力之间的矛盾日益突出,科技工作者只能做选择性地阅读。任何一个农业经济学研究人员都无法通读当年的农业经济学文献。选择性地阅读带来的后果必然是对知识及知识与知识之间的联系的遗漏。即便是全面、完整地阅读,对隐含在海量文献之间的知识与知识之间的内在的、隐秘的联系仅凭人类个人的智力也很难发现。
客观世界是普遍联系的世界,在海量的分裂状知识或科学文献之间存在着各式各样的联系,这些联系有相当一部分仅通过常规的查询与阅读是不能得到的。1986年,美国芝加哥大学的数学教授Don R. Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献的知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,非相关文献知识发现既涉及知识发现技术,也涉及具体的学科领域。二十多年来,非相关文献知识发现成为计算机、情报学和知识发现领域学科(如医学、生物、工程、管理)的共同研究对象,相关研究论文在各学科的学术期刊均有发表。各个学科的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续地研究,相继发现了更多的新知识、新联系,其知识发现应用领域也从单纯的医学、生物学领域拓展到了航空航天、工程技术乃至人文科学。
农业经济是一门有自己的独特研究对象、研究方法、研究目的及悠久的历史与传统的成熟科学,与其它学科一样,现时代的农业经济也面临着专业细化、方向繁多的问题。农业经济学也无法避免Swanson所谓的知识片断化与分裂化倾向。即,农业经济学的知识总量与研究人员的吸收能力之间存在着巨大的差距;农业经济学内部的专业领域划分越来越细,专业之间的知识交流变得更加困难;一个专业领域的信息可能对另一个专业领域是有价值的,领域与领域之间存在着潜在的未被发现的关联。非相关文献知识发现方法及其在农业经济学中的应用研究,就是以Swanson的非相关文献知识发现思想为理论基础,以农业经济学科为学科领域,以国内核心期刊上发表的农业经济学论文为文献源,结合中文信息自动化处理的各项技术,研究适合农业经济学的非相关文献知识发现理论、算法和应用案例,寻找隐藏在现有文献间的关联概念,并以农业经济理论和方法论证关联概念的现实性,验证新知识的正确性。
本文试图在两个方面取得突破。首先,在方法论方面,在分析、总结、比较非相关文献知识发现国内外现有研究成果与算法模型的基础上,本文试图结合国内期刊论文的特点和农业经济学的实际情况,为农业经济学文献设计一套逻辑上可行、操作上简便的知识发现方法,完整解决文献集合、词表体系、分词方案、算法模型等难点问题;其次,在知识发现实践方面,本文试图依据Swanson的非相关文献知识发现思想,以国内核心期刊上发表的农业经济学期刊论文为文献对象,发现若干对与农业经济有关的关联概念,也即发现新知识。
本文首先在对国内外非相关文献知识发现的研究论文进行总结、归纳、分析的基础上,详尽地探讨了非相关文献知识发现思想模式下概念与概念之间的关联方式,针对Swanson的非相关文献知识发现的A-B-C模式和Gordon的中介文献思想,分别对应地提出了单一关联、单级关联、多级关联的概念,更进一步地,创建了多重关联和复合关联模型,给出了多级关联、多重关联和复合关联模式下非相关文献知识发现的开放式与闭合式知识发现过程的路径图。并借鉴在自然语言处理领域被广泛接受的向量空间模型,依据复合关联模式下非相关文献知识发现的开放式与闭合式过程路径图,设计了复合关联模式下非相关文献知识发现的算法模型,包括开放式算法模型与闭合式算法模型。
然后,本文创建了农业经济学非相关文献知识发现语料库。首先以软件手段下载、转换得到用于非相关文献知识发现的农业经济学期刊论文题录数据库,该数据库包括了1989至2008年的二十年间国内所有核心期刊上发表的属于农业经济领域的全部研究论文,共87506篇,并建立了由停用词、通用词表、专业词表、同义词表构成的农业经济学非相关文献知识发现的词表体系。其中的专业词表是专门为农业经济学非相关文献知识发现而创建的,包括与农业经济有关的专业词汇96391个,设计并实现了用于文献集合自动分词的自适应分词算法。自适应分词算法在未登录词识别的召回率方面优于国内的其它算法,很适合非相关文献知识发现对专业领域的新词和概念重视程度较高的需求。
接着,本文的研究进入农业经济学非相关文献知识发现实践阶段。通过自行编写的工具软件,实现了复合关联模式下基于向量空间模型的非相关文献知识发现算法,并以从维普期刊库中下载的题录为知识发现的文献集合,利用自行建立的词表体系,运行和实施了基于国内核心期刊农业经济学期刊论文的非相关文献知识发现过程,发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统三对关联概念。最后,遵循农业经济学的理论和逻辑验证并确认了这三对关联概念为农业经济领域的新知识。这些知识在此前从未引起国内农业经济领域研究人员的联想,在国内核心期刊公开发表的农业经济学文献中都没有报道,但这些知识隐藏在国内农业经济学期刊论文之间。
本文的创新之处主要体现在以下三个方面:
建立了非相关文献知识发现的复合关联模式。
复合关联的概念与思想,在此前的国内外文献均未有类似提法。为了导出并描述非相关文献知识发现的复合关联模式,本文还分别提出了单级关联、多级关联、单一关联、多重关联的概念。单级关联、单一关联和多级关联的思想之前已经是研究者提出的成熟思想,但概念与提法为本文首次提出。本文将其纳入了复合关联的框架下并用新概念分别命名了对应的思想和方法。多重关联的概念与思想则是本文首次创立,已知文献中从未涉及。
基于向量空间模型设计了复合关联模式下的非相关文献知识算法模型。
本文基于向量空间模型设计了复合关联模式下的非相关文献知识发现的算法模型,并对算法效率进行了分析。该算法模型在Swanson及其它学者的论文中均没有涉及,文献调研中也没有发现相似或相近的算法。该算法模型效率较高,与文献集合做一次全局分析的时间代价相当。随后的程序实现和具体的农业经济学非相关文献知识发现实践也验证了该算法模型的可性行与合理性。该算法模型还充分考虑了汉语文献与农业经济领域的特殊性,解决了汉语文献自动分词以及农业经济领域专业词表与同义词的构建等问题。
发现了三对隐含在文献中的关联概念,并证明这三对关联概念可作为国内农业经济学领域的新知识。
以1989年至2008年的二十年间国内所有核心期刊上发表的与农业经济领域相关的期刊论文的篇名和摘要为对象,以自行开发的复合关联模式知识发现软件为工具,通过开放式和闭合式两阶段非相关文献知识发现过程的运行,本文发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统等概念之间的关联,并以农业经济学的理论与逻辑验证了这三对概念之间的关联的正确性,成为农业经济领域的新知识。检索国内文献,在目前能检索到的所有国内核心期刊上登载的农业经济学论文中对以上三对概念之间的联系从未涉及,相关文献为零。
通过农业经济学非相关文献知识发现研究在方法论和知识发现实践两方面的工作,本文可以得出结论:在类似农业经济这样的人文社会科学领域,以国内的期刊文献为数据源,实现非相关文献的知识发现,是可行的,也是可以得出有价值的成果的,并能为农业经济学的研究提供新的方法与新的思路。
此外,新知识发现是一个无止境的过程。本文在现有数据集的基础上发现了三条新知识,但这并不代表现有的数据集只隐含了这三条新知识。后续的研究者在现有数据集的基础上,经过细致的工作,一定可以挖掘、发现更多的农业经济领域的新知识。
【关键词】:农业经济 汉语 知识发现 非相关文献 Swanson
【学位授予单位】:南京农业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:G350
【目录】:
【学位授予单位】:南京农业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:G350
【目录】:
- 摘要9-12
- ABSTRACT12-16
- 第一章 导论16-28
- 1.1 研究背景16-18
- 1.2 研究目的与意义18-21
- 1.2.1 研究目的18-20
- 1.2.2 研究意义20-21
- 1.3 研究内容与方法21-28
- 1.3.1 研究内容22-23
- 1.3.2 研究方法与技术路线23-25
- 1.3.3 可能的创新25-28
- 第二章 基于文献的知识发现与非相关文献知识发现28-60
- 2.1 基于文献的知识发现28-30
- 2.2 非相关文献知识发现30-32
- 2.3 SWANSON的非相关文献知识发现算法32-38
- 2.3.1 Swanson非相关文献知识发现的原理32-34
- 2.3.2 Swanson的开放式知识发现过程34-36
- 2.3.3 Swanson的闭合式知识发现过程36-37
- 2.3.4 Arrowsmith系统37-38
- 2.4 非相关文献知识发现的其它算法38-51
- 2.4.1 Gordon和Lindsay基于词频统计的方法38-39
- 2.4.2 Weeber的两步式知识发现过程与DAD系统39-41
- 2.4.3 Johannes Stegmann的同现词分析41-42
- 2.4.4 Pratt和Yetisgen-Yildiz的LitLinker42-44
- 2.4.5 Padmini Srinivasan的文本挖掘算法44-46
- 2.4.6 Wei Huang等人的新连接预测算法46-47
- 2.4.7 Van der Eijk等人的关联概念空间47-48
- 2.4.8 Wren等人的随机模型48-49
- 2.4.9 Hristovski等人的BITOLA49-50
- 2.4.10 Xiaohua Hu等人的Bio-sbKDS50-51
- 2.5 非相关文献知识发现算法的总结与比较51-55
- 2.5.1 非相关文献知识发现算法评述51-53
- 2.5.2 非相关文献知识发现算法的比较53-54
- 2.5.3 非医学领域的非相关文献知识发现实践54-55
- 2.6 国内对非相关文献知识发现的研究55-60
- 2.6.1 国内非相关文献知识发现研究的主题55-57
- 2.6.2 国内非相关文献知识发现研究的特点57-60
- 第三章 农业经济学非相关文献知识发现的算法模型60-86
- 3.1 非相关文献知识发现与学科领域关系的分析60-64
- 3.1.1 什么样的学科领域适用非相关文献知识发现方法60-62
- 3.1.2 哪些学科的国内文献适合进行非相关文献知识发现62-63
- 3.1.3 国内的农业经济学文献适合开展非相关文献知识发现的理由63-64
- 3.2 非相关文献知识发现复合关联模型的创立64-68
- 3.2.1 单级关联与多级关联的定义及知识发现路径图64-66
- 3.2.2 单一关联与多重关联的定义及知识发现路径图66-67
- 3.2.3 复合关联的定义及知识发现路径图67-68
- 3.2.4 复合关联对算法模型的约束与要求68
- 3.3 基于向量空间模型设计复合关联算法的可能性68-71
- 3.3.1 向量空间模型的原理69-70
- 3.3.2 复合关联算法设计的基本思路70-71
- 3.4 开放式知识发现算法的设计71-77
- 3.4.1 算法原理72-74
- 3.4.2 算法流程74-77
- 3.5 闭合式知识发现算法的设计77-81
- 3.5.1 算法原理78-79
- 3.5.2 算法流程79-81
- 3.6 新算法的效率与性能分析81-86
- 3.6.1 新算法的运行效率82-83
- 3.6.2 新算法与已有算法的性能比较83-86
- 第四章 农业经济学非相关文献知识发现的数据集86-104
- 4.1 国内农业经济学文献的文献源86-89
- 4.1.1 国内文献源分析86-88
- 4.1.2 农业经济学文献源的选择88-89
- 4.2 农业经济学非相关文献知识发现的文献集合89-92
- 4.2.1 维普期刊论文题录的下载90-91
- 4.2.2 维普题录数据的转换91-92
- 4.2.3 农业经济题录数据库的构建92
- 4.3 农业经济学非相关文献知识发现的词表体系92-97
- 4.3.1 停用词表93
- 4.3.2 通用词表93-94
- 4.3.3 农业经济专业词表94-96
- 4.3.4 同义词表96-97
- 4.4 农业经济学文献的分词及词表维护97-104
- 4.4.1 非相关文献知识发现自动分词的特殊性97-99
- 4.4.2 自适应分词算法99-100
- 4.4.3 农业经济文献题名与文摘的分词100-102
- 4.4.4 词表的更新与维护102-104
- 第五章 农业经济学非相关文献知识发现的实践104-118
- 5.1 开放式知识发现过程104-109
- 5.1.1 文献语词矩阵的生成104-106
- 5.1.2 语词关联度矩阵的生成106
- 5.1.3 计算所有可能A词与C词的关联度106-108
- 5.1.4 筛选A词及对应的C词108-109
- 5.2 闭合式知识发现过程109-114
- 5.2.1 Swanson方法109-111
- 5.2.2 复合关联方法111-112
- 5.2.3 Swanson方法与复合关联方法的结合112-114
- 5.3 关联概念及中间词集合的整理与归纳114-118
- 5.3.1 世界贸易组织与原教旨主义114-115
- 5.3.2 马尔萨斯与生态学115-116
- 5.3.3 保险费率与地理信息系统116-118
- 第六章 关联概念在农业经济领域的验证118-136
- 6.1 世界贸易组织与原教旨主义的内在联系118-123
- 6.1.1 世界贸易组织118-120
- 6.1.2 原教旨主义120-122
- 6.1.3 世界贸易组织与能量、生态及市场原教旨主义的关联122-123
- 6.2 作为生态学家的马尔萨斯123-129
- 6.2.1 马尔萨斯123-125
- 6.2.2 生态学125-127
- 6.2.3 马尔萨斯是否生态学家的讨论127-129
- 6.3 区域农业保险费率厘定与地理信息系统的应用129-134
- 6.3.1 区域农业保险费率的厘定129-131
- 6.3.2 地理信息系统在风险评估与风险分析方面的应用131-132
- 6.3.3 地理信息系统应用于区域农业保险费率厘定的可能性132-134
- 6.4 关联成立的意义及对农业经济学的作用134-136
- 第七章 总结与展望136-142
- 7.1 所做的主要工作136-137
- 7.2 本文的创新之处137-138
- 7.3 存在的问题及后续研究工作138-142
- 参考文献142-150
- 致谢150-152
- 攻读学位期间发表的学术论文目录152
| 【相似文献】 | ||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||
|
|||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||



