收藏本站
《南京农业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

古农学本体的半自动构建及检索研究

何琳  
【摘要】: 近20年来,中国农史文献资料的研究已经由传统的手工整理方式逐渐转向农史信息资源的数字化整理和建设,并借助于现代化的技术和手段来加强农史信息资源的产生、组织、存取、传播和利用,以便用户更便捷地获取农史研究资料,促进农史研究的发展。从目前的现状来看,农史学科已经拥有了一批数字化资源,这无疑促进了农业科技遗产的保护和传播。然而从利用的角度来看,在农史信息资源的组织和存取技术还有待提高,主要表现在缺乏有力的语义管理工具,检索技术相对陈旧,计算机仅把用户的检索关键词当作简单的字符处理,因此,在农史领域建立一种语义描述机制,使得计算机能够具有语义理解能力,是提高农史信息资源服务效果的有效手段。 本体(Ontology)作为一种能够在语义和知识层次上描述信息系统的概念建模工具,自被提出以来就引起了国外众多科研人员的关注,并在知识工程、数字图书馆、软件复用、信息检索和Web异构信息的处理、语义Web等众多领域得到了广泛的应用。本文将本体引入到农史领域,尝试构建农史领域本体作为农史信息资源加工、组织和利用中有力的语义工具来解决语义异构问题,使得农史领域概念能够有着明确唯一的定义,在人和机器之间达成一种共识,促进人机交流。 本文首先对农史信息资源的组织模式进行调查统计,分析目前农史信息资源组织现状,提出建立本体作为农史学科的语义工具,是提高农史信息资源管理和服务的有效手段,进而结合情报学领域在编制分类表和叙词表的技术和经验,借鉴知识工程领域在构建专家知识库中取得的成绩以及机器学习技术和自然语言处理技术的成果,尝试半自动地构建农史领域本体,提高本体构建的效率。最后,以该领域本体为基础,设计并开发了一个基于领域本体的语义检索模型。 本文的研究内容主要有以下几个方面: (1)对农史信息资源组织方式的调查分析 随着计算机技术的迅猛发展,农史信息资源的组织方式已经由传统手工编制的目录、索引,发展到了文献数据库、网站等高级组织方式。本文首先对目前农史信息资源数字化组织现状进行调查与统计,目前的农史信息资源组织主要有专题网站、专题数据库和数字图书馆/数字博物馆三种类型,并对它们的分布进行了统计分析,以便了解农史信息资源建设现状。 农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在。本文在农史信息资源调查的基础上,从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析,指出其主要的不足是资源的组织中缺乏语义控制机制。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,可以对共享概念达成统一理解,为计算机提供一种互操作语言。本文提出利用本体来加强农史概念的形式化描述,并分析了领域本体在农史信息资源组织中对于提升信息服务的作用。 (2)古农学本体构建模式研究 本体的构建是解决语义异构问题的基础,因此实现语义Web需要大量的本体作为支撑。对于本体的构建,目前主要是手工构建方法和工具的研究。手工构建本体费时费力、进展缓慢且成本高昂,这也是本体构建无法走出实验室的原因之一。机器学习等文本自动化处理技术为本体的自动构建奠定了基础。从长期的发展趋势看,自动构建本体是未来的发展方向,但是在目前技术尚未成熟,机器学习到的概念关系还不够精细和准确。因此,从本体构建的可行性角度考虑,本文采用人机协作的半自动构建模式构建古农学本体。在前人构建领域本体方法论的基础上,结合叙词表的编制模式,由专业人员通过对古代农学领域概念关系分析给出领域的上层知识模式,利用机器学习技术从领域语料中学习概念关系,将专业人员的自顶向下和机器学习的自底向上的结果结合起来。 (3)古农学本体半自动构建技术研究 本研究尝试综合运用多种技术方法用于领域关系的发现和识别,初步实现领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。 ①古农学领域概念的自动获取。采用基于N-Gram的无词典分词方法从古农学研究论文中获取领域候选概念,同时根据文献保障原则利用文本自动主题标引方法对候选概念进行筛选,以获得领域的核心概念。 ②古农学本体领域等级关系的建立。根据专业人员给出的古农学领域上层模式,结合现有的领域相关的分类表和主题词表的分类体系,以保证构建的领域本体具有通用性和良好的逻辑基础,同时利用改进的层次聚类法从古农学文本语料中识别等级关系,对原有的分类体系进行扩充和更新。 ③古农学领域概念属性关系的建立。采用基于关联规则挖掘和基于自然语言处理两种方法相结合的方式从古农学研究论文中获取领域概念的属性关系,利用支持度和置信度等度量方法从文本语料中获取最相关概念,利用汉语的句法特点从文本中抽取主谓宾关系,获取概念属性关系。这样可以减少大规模统计方法缺乏必要语义逻辑基础的不足,也可以降低概念间语义关系分析过分依赖复杂的语言处理模型的弊端。另外,采用基于模式匹配的同义词识别方法为概念获取同义词属性。 ④古农学本体的形式化。本体的形式化处理,可以对概念关系按照既定的规则进行批处理并自动地生成形式化的本体,提高古农学本体生成的效率。可在已经识别出各种概念关系的基础上自动完成古农学本体的形式化文件的生成。 (4)基于古农学本体的语义检索机制研究 本文设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制。该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成。借助本体对用户的检索关键词进行语义分析,获取隐含概念,形成对检索需求的规范化描述,使得用户和机器获得统一的机器可理解的语义知识,实现信息资源的语义检索。 本体的构建是一项复杂的系统工程,涉及多个学科领域,因此本文所作的工作还非常有限。其一是将本体引入农史信息资源管理,其二是探索半自动构建农史领域本体的技术和方法。由于时间和人力的限制,本文也仅选取了农史学科的一小部分——古农学作为本体构建对象,开发的原型工具尚处于实验探索阶段,在今后的工作中尚需要进一步的扩充和深入的研究。
【学位授予单位】:南京农业大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:S-09

【相似文献】
中国期刊全文数据库 前10条
1 徐瑞平;;论图书馆对网络信息资源的有效组织和开发[J];河南科技学院学报(自然科学版);2007年01期
2 陈开慧;;基于能力培养的信息组织课程教学改革与实践[J];农业网络信息;2010年11期
3 卢笑明;唐琳;李学鸣;;元数据与图书馆数字资源组织管理[J];农业网络信息;2010年12期
4 刘晓;韩菲;崔晓宁;李树霞;;网络信息组织方法[J];农业网络信息;2008年12期
5 蒋楠;;泛在环境下政府网站信息资源组织与整合研究[J];江西农业学报;2011年10期
6 农;;我国市场将出现十大竞争[J];林业机械与木工设备;1993年01期
7 杨峰;史剑萍;周艺萍;;浅谈新形势下加强纪检信访信息的获取工作[J];江西农业大学学报;1997年05期
8 艾厚煜;;从40万与0.4万看经营信息的重要性[J];种子科技;1989年04期
9 李群;;看新邵农民如何利用市场信息[J];科学种养;2007年11期
10 ;如何在网上搜索信息?[J];农家之友;2007年11期
中国重要会议论文全文数据库 前10条
1 李洪斌;;组织网上农业信息资源为产学研开展深层次服务[A];图书馆与西部大开发[C];2002年
2 李洪斌;;组织网上农业信息资源 为产学研开展深层次服务[A];图书馆与西部大开发——陕西省图书馆学会第四次科学研讨会论文集[C];2002年
3 王菲菲;;元数据与数字图书馆的信息组织[A];2008年湘粤澳闽图书馆学(协)会学术研讨会福建省论文汇编[C];2008年
4 王菲菲;;元数据在数字图书馆的组织与索引作用[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
5 孙霏;;新华社多媒体数据库大客户系统的结构设计与功能实现[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(下篇)[C];2010年
6 陶洋;;网络信息的组织与其效率分析[A];四川省通信学会一九九六年学术年会论文集[C];1996年
7 朱晓华;王煜;程焕文;;“信息疾病”与图书馆的对策[A];海峡两岸资讯服务与教育新方向研讨会大会交流论文[C];2002年
8 王若冰;;信息社会新形势下图书馆的改革和发展[A];图书馆改革与发展——陕西省社会科学信息学会第六次学术讨论会论文集[C];2003年
9 朱东屏;;基于XML医学论文结构要素分析及应用探讨[A];福建省图书馆学会2005年学术年会论文集[C];2005年
10 王菲菲;王莉莉;;试论数字图书馆的信息组织[A];福建省图书馆学会2003年学术年会论文集[C];2003年
中国重要报纸全文数据库 前10条
1 李忠将;国土资源信息服务体系框架形成[N];中国矿业报;2003年
2 栾国鍌;当当进军C2C困难重重[N];国际商报;2006年
3 本报记者  周蕾;Google是一家什么企业[N];网络世界;2006年
4 赵左亮;靠质量塑品牌以服务赢市场[N];中国质量报;2005年
5 童芬芬;拼客经济“很潮很强大”[N];中华工商时报;2008年
6 俞泳;云南联通启动“农业新时空”服务站[N];人民邮电;2006年
7 于露;W3C发布未来网页标准HTML 5[N];电子资讯时报;2008年
8 刘青宝 邓苏 张维明 陈卫东 黄宏宾;海量信息组织与集成技术[N];计算机世界;2001年
9 鲁渝京;网络音频视频将纳入HTML5标准草案[N];中国质量报;2008年
10 猫咪;用友致远 轻松提升管理执行力[N];中国电脑教育报;2005年
中国博士学位论文全文数据库 前10条
1 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
2 蔡忠亮;多媒体电子地图的信息组织及可视化机制研究[D];武汉大学;2004年
3 曹锦丹;多视角信息组织模式研究[D];吉林大学;2006年
4 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年
5 孙坦;数字图书馆理论与发展模式研究[D];中国科学院文献情报中心;2000年
6 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
7 薛春香;农史知识组织系统构建与应用研究[D];南京农业大学;2006年
8 王世隆;直升机时间域电磁法数据收录与现场处理关键技术研究[D];吉林大学;2011年
9 杨从科;中国农业科学数据资源建设研究[D];中国农业科学院;2007年
10 邵军航;委婉语研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 史继红;中小企业网络信息组织[D];黑龙江大学;2003年
2 施莉;网络环境中的信息组织研究[D];华东师范大学;2001年
3 靳丽娟;元数据及其在数字图书馆信息组织中的应用[D];山西大学;2004年
4 赵春琳;Web2.0环境下用户参与的信息组织研究[D];吉林大学;2010年
5 岑利锋;基于网络信息组织理论的信息搜索引擎技术研究[D];山西大学;2004年
6 王翠波;基于语义网的智能导航研究[D];武汉大学;2005年
7 张继军;Web页面文本信息的自动提取技术研究[D];吉林大学;2007年
8 王维;基于Web的武器装备电子技术手册信息组织模式研究[D];西北工业大学;2006年
9 刘丹;综合集成研讨厅若干关键技术研究[D];南京理工大学;2007年
10 钟永萍;传统文献分类法与网络信息分类法的比较研究[D];福建师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026